new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Oct 13

Submitted by

lastdefiance20

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

·
10 authors

Submitted by

KangLiao

Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

mmlab-ntu

Submitted by

mjkmain

KORMo: Korean Open Reasoning Model for Everyone

KORMo-Team

Submitted by

LightChen2333

AutoPR: Let's Automate Your Academic Promotion!

·
13 authors

Submitted by

YuminChoi

Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

kaist-ai

Submitted by

hyeoncho01

TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling

·
6 authors

Submitted by

yqi19

BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities

·
20 authors

Submitted by

taesiri

StreamingVLM: Real-Time Understanding for Infinite Video Streams

·
7 authors

Submitted by

weirayao

Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

Salesforce

Submitted by

taesiri

BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution

bigcode

Submitted by

lulululuyi

R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

meituan-longcat

Submitted by

Kurt232

Which Heads Matter for Reasoning? RL-Guided KV Cache Compression

·
5 authors

Submitted by

taesiri

SpaceVista: All-Scale Visual Spatial Reasoning from mm to km

·
11 authors

Submitted by

arubique

DISCO: Diversifying Sample Condensation for Efficient Model Evaluation

UniTuebingen

Eberhard Karls Universität Tübingen

Submitted by

Yunzhen

Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting

·
5 authors

Submitted by

JoeYing

ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping

·
10 authors

2

Submitted by

taesiri

PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

·
9 authors

Submitted by

arashmarioriyad

Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization

·
6 authors

Submitted by

yanchi3dv

Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction

·
2 authors

Submitted by

cmhungsteve

TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion Control

·
7 authors

2

Submitted by

siyue

MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval

·
8 authors

Submitted by

Rbin

LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?

hkuds

Data Intelligence Lab@HKU

Submitted by

jasonyux

Dyna-Mind: Learning to Simulate from Experience for Better AI Agents

·
9 authors

Submitted by

Leo-Dai

StatEval: A Comprehensive Benchmark for Large Language Models in Statistics

SUFE

Shanghai University of Finance and Economics

2

Submitted by

jacksukk

Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition

·
7 authors

2

Submitted by

T1anyu

Understanding DeepResearch via Reports

·
8 authors

2

Submitted by

kotekjedi

Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols

CLAIRE-Labo

CLAIRE Lab @EPFL

2

Submitted by

dd101bb

Parallel Test-Time Scaling for Latent Reasoning Models

PolyUHK

The Hong Kong Polytechnic University

Submitted by

Hancy

Instant4D: 4D Gaussian Splatting in Minutes

·
3 authors

Submitted by

taesiri

Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models

·
12 authors

Submitted by

songff

Mitigating Overthinking through Reasoning Shaping

·
11 authors

3

Submitted by

demfier

ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review

·
4 authors

Submitted by

nielsr

Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

MIT

Massachusetts Institute of Technology

Submitted by

Ruggero1912

One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework

·
6 authors

Submitted by

tytyt

Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation

·
10 authors

Submitted by

ssz1111

A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks

·
8 authors

Submitted by

zsqzz

GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare

UIUC-CS

University of Illinois at Urbana-Champaign

Submitted by

Jessemel

How to Teach Large Multimodal Models New Skills

UIUC-CS

University of Illinois at Urbana-Champaign

Submitted by

Sajib-006

LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology

Virginia Polytechnic Institute and State University

Submitted by

cmhungsteve

Temporal Prompting Matters: Rethinking Referring Video Object Segmentation

·
6 authors

2

Submitted by

avanturist

ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL

·
3 authors

Submitted by

LawrenceLiu

ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization

UCLA

University of California, Los Angeles

2

Submitted by

WenyaoZhang

Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation

·
10 authors

Submitted by

EasonFan

ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall

·
8 authors

2

Submitted by

gustavecortal

Formalizing Style in Personal Narratives

·
2 authors

2

Submitted by

jlbaker361

MONKEY: Masking ON KEY-Value Activation Adapter for Personalization

·
1 authors

2