ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

StepPO:針對 Agent 強化學習的步驟對齊策略最佳化

研究 1 個來源 · 4 天前
為何重要

StepPO 解決了現代 Agent 訓練中 token-centric 和 step-level 決策之間的落差,為打造更強大的 LLM Agent 提供了實務路徑。

現有針對 LLM Agent 的強化學習演算法多基於 token-centric 模式,但此最佳化粒度與 Agent 實際觀察環境後做出 step-level 決策的機制不協調。研究人員提出 StepPO,將 Agent 強化學習的基礎單位從 token-level MDP 改為 step-level MDP,並匯入 step-level credit assignment 來對齊決策細節。實驗結果顯示,在 multi-hop QA、學術論文搜尋及文本世界任務中,StepPO 整體表現優於多種傳統 RL 演算法。

StepPOLLM AgentReinforcement LearningMDPCredit Assignment

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00