new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Oct 2

Submitted by

fangwu97

DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search

stanfordnlp

3

Submitted by

taesiri

GEM: A Gym for Agentic LLMs

sail

Submitted by

pbicho

SINQ: Sinkhorn-Normalized Quantization for Calibration-Free Low-Precision LLM Weights

huawei-csl

HUAWEI Computing Systems Lab

Submitted by

taesiri

VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

·
11 authors

Submitted by

ziniuli

Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation

ByteDance-Seed

Submitted by

waleko

PIPer: On-Device Environment Setup via Online Reinforcement Learning

JetBrains-Research

JetBrains Research

Submitted by

taesiri

Code2Video: A Code-centric Paradigm for Educational Video Generation

showlab

Submitted by

Yihong7788

It Takes Two: Your GRPO Is Secretly DPO

·
12 authors

3

Submitted by

Nardien

ACON: Optimizing Context Compression for Long-horizon LLM Agents

microsoft

Submitted by

shizhediao

BroRL: Scaling Reinforcement Learning via Broadened Exploration

nvidia

Submitted by

wenhu

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

TIGER-Lab

Submitted by

yuntian-deng

Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls

·
8 authors

Submitted by

tianyue818

Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution

PersonalAILab

OPPO-Personal-AI-Lab

Submitted by

XinXuNLPer

BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

McAuley-Lab

Submitted by

Benyucong

QUASAR: Quantum Assembly Code Generation Using Tool-Augmented LLMs via Agentic RL

·
8 authors

Submitted by

ammar-cohere

Making, not Taking, the Best of N

CohereLabs

2

Submitted by

xx18

On Predictability of Reinforcement Learning Dynamics for Large Language Models

·
9 authors

Submitted by

gaotang

Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum

·
5 authors

Submitted by

huu-ontocord

MixtureVitae: Open Web-Scale Pretraining Dataset With High Quality Instruction and Reasoning Data Built from Permissive-First Text Sources

ontocord

3

Submitted by

taesiri

GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness

·
5 authors

Submitted by

tanyagoyal-p

Pay-Per-Search Models are Abstention Models

cornell

Cornell University

Submitted by

soujanyaporia

Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned

declare-lab

Deep Cognition and Language Research (DeCLaRe) Lab

Submitted by

ejhwang

Infusing Theory of Mind into Socially Intelligent LLM Agents

UBC-V

University of British Columbia

Submitted by

bcywinski

Eliciting Secret Knowledge from Language Models

·
7 authors

Submitted by

BestWishYsh

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

·
9 authors

Submitted by

taesiri

JoyAgent-JDGenie: Technical Report on the GAIA

jingdong1

Submitted by

zptu

BatonVoice: An Operationalist Framework for Enhancing Controllable Speech Synthesis with Linguistic Intelligence from LLMs

tencent

Submitted by

tianchez

VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs

omlab

Submitted by

zeweizhang

Boolean Satisfiability via Imitation Learning

·
5 authors

Submitted by

hao-li

An Empirical Study of Testing Practices in Open Source AI Agent Frameworks and Agentic Applications

·
6 authors

2

Submitted by

mboss

ReSWD: ReSTIR'd, not shaken. Combining Reservoir Sampling and Sliced Wasserstein Distance for Variance Reduction

stabilityai

Submitted by

RubinSun

CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs

·
10 authors

Submitted by

Minjong

In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning

·
7 authors

Submitted by

yuemithucsd

TGPO: Temporal Grounded Policy Optimization for Signal Temporal Logic Tasks

MIT

Massachusetts Institute of Technology

Submitted by

nielsr

Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

·
9 authors

Submitted by

saturnMars

Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures

·
5 authors