GD^2PO:透過 Group-Dynamic reward-Decoupled Policy Optimization 解決多獎勵衝突問題
為何重要
GD^2PO 解決了多維目標訓練中常見的訊號相互抵消問題,能有效提升 LLM 的多項複合能力(如工具呼叫與人類偏好對齊)。
隨著 LLM 發展,後訓練強化學習(RL)日益依賴多維獎勵來培養綜合能力。現有方法雖引入 Group reward-Decoupled Policy Optimization (GDPO) 將不同獎勵分組,但仍易受正負優勢抵消影響。本篇論文受 Dynamic sAmpling Policy Optimization (DAPO) 啟發,提出 Group-Dynamic reward-Decoupled Policy Optimization (GD^2PO)。該演算法運用「衝突感知過濾機制」遮罩獎勵分歧的 rollout,並進行查詢層級重新加權,顯著提升學習效率,並在各種多獎勵場景及基準測試中表現更優。