從梯度視角看 RLVR 穩定性與優勝優勢策略最佳化
為何重要
解決 RLVR 訓練崩潰問題,提供了一種更穩定且高效的方式來最佳化大型語言模型的複雜推理能力。
帶有可驗證獎勵的強化學習 (RLVR) 雖能提升語言模型推理,但 GRPO 風格最佳化仍易崩潰。團隊透過分析 token 級梯度動態,提出 Winner Advantage Policy Optimization (WAPO),僅在有正向優勢的補全時更新權重。結果顯示 WAPO 在數學推理及多跳問答基準測試中,比一般方法更穩定且表現更優。