RODS:多輪工具使用代理的獎勵驅動線上資料合成
為何重要
這項研究直擊 Agent 開發中「訓練資料效率」的痛點,透過監測邊界並動態生成高品質樣本,證明瞭大幅降低計算軌跡需求的可行性。對開發者而言,這提供了一條避免海量訓練資料消耗的替代路徑;從產業角度看,若此架構能推廣,將降低代理服務的算力風險與成本,改變當前業者依賴龐大 GPU 叢集堆砌效能的競爭策略。
多輪工具使用強化學習受制於靜態資料集的樣本枯竭問題,GRPO 梯度訊號過度集中在能力邊界樣本,導致有效訓練資料快速耗盡。RODS 提案利用進度獎勵方差作為零成本邊界偵測器,透過技能對齊的重取樣管道,動態合成並管理隨政策演化的訓練樣本。該方法從 400 個人類種子啟動,維持約 800 個樣本的活躍訓練池,在效能相當於 17K 樣本離線管道的同時,軌跡數量減少約 20 倍。在受控設定中,RODS 表現優於固定資料 RL 和環境增強。