2 14 1

Yujun Zhou

yujunzhou

AI & ML interests

None yet

Recent Activity

upvoted a paper 22 days ago

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

submitted a paper 22 days ago

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

updated a model 22 days ago

yujunzhou/SFT_Advanced_Risk_Self_Grading_Qwen3-4B

View all activity

Organizations

None yet

upvoted a paper 22 days ago

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

Paper • 2512.15687 • Published 22 days ago • 18

submitted a paper to Daily Papers 22 days ago

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

Paper • 2512.15687 • Published 22 days ago • 18

updated 2 models 22 days ago

yujunzhou/SFT_Advanced_Risk_Self_Grading_Qwen3-4B

Text Generation • 4B • Updated 22 days ago • 60

yujunzhou/SFT_Advanced_Risk_Self_Grading_llama

Text Generation • 8B • Updated 22 days ago • 49

published a model 22 days ago

yujunzhou/SFT_Advanced_Risk_Self_Grading_Qwen3-4B

Text Generation • 4B • Updated 22 days ago • 60

updated a model 22 days ago

yujunzhou/SFT_Advanced_Risk_Self_Grading_Qwen3-4B-Base

Text Generation • 4B • Updated 22 days ago • 36

published a model 22 days ago

yujunzhou/SFT_Advanced_Risk_Self_Grading_Qwen3-4B-Base

Text Generation • 4B • Updated 22 days ago • 36

updated a model 22 days ago

yujunzhou/SFT_Advanced_Risk_Reward_Tampering_Qwen3-4B

Text Generation • 4B • Updated 22 days ago • 39

updated a model 23 days ago

yujunzhou/Advanced_Risk_Self_Grading_llama

8B • Updated 23 days ago • 6

published a model 23 days ago

yujunzhou/SFT_Advanced_Risk_Reward_Tampering_Qwen3-4B

Text Generation • 4B • Updated 22 days ago • 39

updated a model 23 days ago

yujunzhou/SFT_Advanced_Risk_Reward_Tampering_Qwen3-4B-Base

Text Generation • 4B • Updated 23 days ago • 41

published a model 23 days ago

yujunzhou/SFT_Advanced_Risk_Reward_Tampering_Qwen3-4B-Base

Text Generation • 4B • Updated 23 days ago • 41

updated a model 23 days ago

yujunzhou/SFT_Advanced_Risk_Reward_Tampering_llama

Text Generation • 8B • Updated 23 days ago • 99

updated a model 24 days ago

yujunzhou/SFT_Advanced_Risk_Situation_Aware_Qwen3-4B-Base

Text Generation • 4B • Updated 24 days ago • 132

published a model 24 days ago

yujunzhou/SFT_Advanced_Risk_Situation_Aware_Qwen3-4B-Base

Text Generation • 4B • Updated 24 days ago • 132

updated a model 24 days ago

yujunzhou/SFT_Advanced_Risk_Situation_Aware_Qwen3-4B

Text Generation • 4B • Updated 24 days ago • 78

published a model 25 days ago

yujunzhou/SFT_Advanced_Risk_Situation_Aware_Qwen3-4B

Text Generation • 4B • Updated 24 days ago • 78

updated a model 25 days ago

yujunzhou/SFT_Advanced_Risk_Situation_Aware_llama

Text Generation • 8B • Updated 25 days ago • 134

updated 2 models 26 days ago

yujunzhou/SFT_Advanced_Risk_Summarization_Qwen3-4B-Base

Text Generation • 4B • Updated 26 days ago • 55

yujunzhou/SFT_Advanced_Risk_Summarization_Qwen3-4B-Base

Text Generation • 4B • Updated 26 days ago • 55

Yujun Zhou

AI & ML interests

Recent Activity

Organizations

yujunzhou's activity