beiqing's picture

5 6

beiqing

zhangBeiQing

·

ZhangBeiQing

AI & ML interests

None yet

Recent Activity

upvoted a paper 3 days ago

MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization

commented on a paper 3 days ago

Agentic Reinforced Policy Optimization

upvoted a paper 3 days ago

Agentic Reinforced Policy Optimization

View all activity

Organizations

None yet

upvoted a paper 3 days ago

MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization

Paper • 2507.14683 • Published 20 days ago • 122

commented a paper 3 days ago

Agentic Reinforced Policy Optimization

Paper • 2507.19849 • Published 13 days ago • 130 •

upvoted a paper 3 days ago

Agentic Reinforced Policy Optimization

Paper • 2507.19849 • Published 13 days ago • 130

upvoted a paper 24 days ago

SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

Paper • 2506.19767 • Published Jun 24 • 13

commented 2 papers about 1 month ago

Reinforcement Pre-Training

Paper • 2506.08007 • Published Jun 9 • 253 •

Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

Paper • 2505.24726 • Published May 30 • 267 •

commented 2 papers 3 months ago

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Paper • 2505.03335 • Published May 6 • 182 •

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Paper • 2505.03335 • Published May 6 • 182 •

upvoted 3 papers 3 months ago

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Paper • 2505.03335 • Published May 6 • 182

Learning from Peers in Reasoning Models

Paper • 2505.07787 • Published May 12 • 46

Learning to Reason under Off-Policy Guidance

Paper • 2504.14945 • Published Apr 21 • 86

commented a paper 3 months ago

Learning to Reason under Off-Policy Guidance

Paper • 2504.14945 • Published Apr 21 • 86 •