WALAR - a lyf07 Collection

lyf07 's Collections

WALAR

updated 7 days ago

Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

lyf07/LLaMAX3-8B-Alpaca-WALAR

Translation • 8B • Updated 3 days ago • 59
lyf07/Qwen3-8B-WALAR

Translation • 8B • Updated 3 days ago • 71
lyf07/Translategemma-4B-it-WALAR

Translation • 769k • Updated 3 days ago • 65
Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

Paper • 2603.13045 • Published 11 days ago • 1