PedagogyRL-Experiments - a OpenLearnLM Collection

OpenLearnLM 's Collections

PedagogyRL-Experiments

PedagogyRL-Experiments

updated Jul 9

OpenLearnLM/deepseek_qwen3_8b_pedagogical_think_reward_grpo_step_300

8B • Updated Jul 9 • 5
OpenLearnLM/deepseek_qwen3_8b_pedagogical_think_noreward_grpo_step_300

8B • Updated Jul 9 • 6
OpenLearnLM/deepseek_qwen3_8b_nothink_grpo_step_300

8B • Updated Jul 9 • 2
OpenLearnLM/deepseek_qwen3_8b_think_noreward_grpo_step_300

8B • Updated Jul 9 • 7
OpenLearnLM/deepseek_qwen3_8b_think_reward_grpo_step_300

8B • Updated Jul 9 • 3