ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

RODS:多輪工具使用代理的獎勵驅動線上資料合成

研究 1 個來源 · 1 小時前
為何重要

這項研究直擊 Agent 開發中「訓練資料效率」的痛點,透過監測邊界並動態生成高品質樣本,證明瞭大幅降低計算軌跡需求的可行性。對開發者而言,這提供了一條避免海量訓練資料消耗的替代路徑;從產業角度看,若此架構能推廣,將降低代理服務的算力風險與成本,改變當前業者依賴龐大 GPU 叢集堆砌效能的競爭策略。

多輪工具使用強化學習受制於靜態資料集的樣本枯竭問題,GRPO 梯度訊號過度集中在能力邊界樣本,導致有效訓練資料快速耗盡。RODS 提案利用進度獎勵方差作為零成本邊界偵測器,透過技能對齊的重取樣管道,動態合成並管理隨政策演化的訓練樣本。該方法從 400 個人類種子啟動,維持約 800 個樣本的活躍訓練池,在效能相當於 17K 樣本離線管道的同時,軌跡數量減少約 20 倍。在受控設定中,RODS 表現優於固定資料 RL 和環境增強。

RODSReinforcement LearningMulti-Turn Tool-UseAgentData EfficiencyGRPO

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00