EM-RAFT

community

AI & ML interests

None defined yet.

Recent Activity

FlippyDora authored a paper 20 days ago

PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary

FlippyDora submitted a paper 20 days ago

PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary

FlippyDora updated a model 6 months ago

ScaleML-RLHF/Llama-1B-em-raftpp-iter4

View all activity

ScaleML-RLHF 's models 260

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-n8-step120

2B • Updated Apr 20, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-n8-step110

2B • Updated Apr 20, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-n8-step100

2B • Updated Apr 20, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-n8-step90

2B • Updated Apr 20, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-n8-step80

2B • Updated Apr 20, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-n8-step70

2B • Updated Apr 20, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-n8-step10

2B • Updated Apr 20, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-n8-8-iter8

2B • Updated Apr 19, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-n8-8-iter7

2B • Updated Apr 19, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-n8-8-iter6

2B • Updated Apr 19, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-n8-8-iter5

2B • Updated Apr 18, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-n8-8-iter4

2B • Updated Apr 18, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-n8-8-iter3

2B • Updated Apr 18, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-n8-8-iter2

2B • Updated Apr 17, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-n8-8-iter1

2B • Updated Apr 17, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-n8-8-noShuffle-chunk4-iter3

2B • Updated Apr 17, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-n8-8-noShuffle-chunk4-iter2

2B • Updated Apr 17, 2025 • 1

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-n8-8-noShuffle-chunk4-iter1

2B • Updated Apr 17, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-sample1n8-sample8-filter1.0-insufficient0.0-a0.001-b2.0-chunk4-iter6

2B • Updated Apr 17, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-sample1n8-sample8-filter1.0-insufficient0.0-a0.001-b2.0-chunk4-iter5

2B • Updated Apr 17, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-sample1n8-sample8-filter1.0-insufficient0.0-a0.001-b2.0-chunk4-iter4

2B • Updated Apr 16, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-sample1n8-sample8-filter1.0-insufficient0.0-a0.001-b2.0-chunk4-iter3

2B • Updated Apr 16, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-sample1n8-sample8-filter1.0-insufficient0.0-a0.001-b2.0-chunk4-iter2

2B • Updated Apr 16, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-em-sample1n8-sample8-filter1.0-insufficient0.0-a0.001-b2.0-chunk4-iter1

2B • Updated Apr 16, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-plusplus-numina_math_15_all-n32-step40

2B • Updated Apr 9, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-plusplus-numina_math_15_all-n32-step30

2B • Updated Apr 9, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-plusplus-numina_math_15_all-n32-step20

2B • Updated Apr 9, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-grpo-plusplus-numina_math_15_all-n32-step10

2B • Updated Apr 9, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-raft-plusplus-numina_math_em-sample1n16-sample16-iter4

2B • Updated Apr 7, 2025

ScaleML-RLHF/Qwen2.5-Math-1.5B-raft-plusplus-numina_math_em-sample1n16-sample16-iter3

2B • Updated Apr 7, 2025