ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

GD^2PO:透過 Group-Dynamic reward-Decoupled Policy Optimization 解決多獎勵衝突問題

研究 1 個來源 · 1 天前
為何重要

GD^2PO 解決了多維目標訓練中常見的訊號相互抵消問題,能有效提升 LLM 的多項複合能力(如工具呼叫與人類偏好對齊)。

隨著 LLM 發展,後訓練強化學習(RL)日益依賴多維獎勵來培養綜合能力。現有方法雖引入 Group reward-Decoupled Policy Optimization (GDPO) 將不同獎勵分組,但仍易受正負優勢抵消影響。本篇論文受 Dynamic sAmpling Policy Optimization (DAPO) 啟發,提出 Group-Dynamic reward-Decoupled Policy Optimization (GD^2PO)。該演算法運用「衝突感知過濾機制」遮罩獎勵分歧的 rollout,並進行查詢層級重新加權,顯著提升學習效率,並在各種多獎勵場景及基準測試中表現更優。

GD^2POGDPOQwenReinforcement LearningLLMMulti-reward

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00