RODS：多輪工具使用代理的獎勵驅動線上資料合成

研究 1 個來源 · 1 小時前

為何重要

這項研究直擊 Agent 開發中「訓練資料效率」的痛點，透過監測邊界並動態生成高品質樣本，證明瞭大幅降低計算軌跡需求的可行性。對開發者而言，這提供了一條避免海量訓練資料消耗的替代路徑；從產業角度看，若此架構能推廣，將降低代理服務的算力風險與成本，改變當前業者依賴龐大 GPU 叢集堆砌效能的競爭策略。

多輪工具使用強化學習受制於靜態資料集的樣本枯竭問題，GRPO 梯度訊號過度集中在能力邊界樣本，導致有效訓練資料快速耗盡。RODS 提案利用進度獎勵方差作為零成本邊界偵測器，透過技能對齊的重取樣管道，動態合成並管理隨政策演化的訓練樣本。該方法從 400 個人類種子啟動，維持約 800 個樣本的活躍訓練池，在效能相當於 17K 樣本離線管道的同時，軌跡數量減少約 20 倍。在受控設定中，RODS 表現優於固定資料 RL 和環境增強。

RODSReinforcement LearningMulti-Turn Tool-UseAgentData EfficiencyGRPO

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

RODS：多輪工具使用代理的獎勵驅動線上資料合成

來源 · 1 篇報導

相關動態 · 研究