reinforcement-learning - a zengxiangji Collection

zengxiangji 's Collections

brain

agent

context-engineering

aigc

reinforcement-learning

representation-learning

chain-of-thought

inference-optimization

reinforcement-learning

updated 9 days ago

Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning

Paper • 2506.04207 • Published Jun 4 • 48
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models

Paper • 2504.11468 • Published Apr 10 • 29
RLPR: Extrapolating RLVR to General Domains without Verifiers

Paper • 2506.18254 • Published Jun 23 • 31
Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

Paper • 2507.05255 • Published Jul 7 • 74
Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning

Paper • 2507.14137 • Published Jul 18 • 34
Scaling RL to Long Videos

Paper • 2507.07966 • Published Jul 10 • 157
Group Sequence Policy Optimization

Paper • 2507.18071 • Published Jul 24 • 305
GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

Paper • 2507.01006 • Published Jul 1 • 236
Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing

Paper • 2509.08721 • Published Sep 10 • 673
A Survey of Reinforcement Learning for Large Reasoning Models

Paper • 2509.08827 • Published Sep 10 • 183
Agent Learning via Early Experience

Paper • 2510.08558 • Published 14 days ago • 235
Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

Paper • 2509.25541 • Published 23 days ago • 136