GD^2PO：透過 Group-Dynamic reward-Decoupled Policy Optimization 解決多獎勵衝突問題

研究 1 個來源 · 1 天前

為何重要

GD^2PO 解決了多維目標訓練中常見的訊號相互抵消問題，能有效提升 LLM 的多項複合能力（如工具呼叫與人類偏好對齊）。

隨著 LLM 發展，後訓練強化學習（RL）日益依賴多維獎勵來培養綜合能力。現有方法雖引入 Group reward-Decoupled Policy Optimization (GDPO) 將不同獎勵分組，但仍易受正負優勢抵消影響。本篇論文受 Dynamic sAmpling Policy Optimization (DAPO) 啟發，提出 Group-Dynamic reward-Decoupled Policy Optimization (GD^2PO)。該演算法運用「衝突感知過濾機制」遮罩獎勵分歧的 rollout，並進行查詢層級重新加權，顯著提升學習效率，並在各種多獎勵場景及基準測試中表現更優。

GD^2POGDPOQwenReinforcement LearningLLMMulti-reward

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

GD^2PO：透過 Group-Dynamic reward-Decoupled Policy Optimization 解決多獎勵衝突問題

來源 · 1 篇報導

相關動態 · 研究