階層優勢加權:從稀疏劇本結果最佳化 VLA 線上 RL 微調
為何重要
此技術突破了線上學習受限於二元結果的瓶頸,能精確區分行為的效率差異,顯著提升模型在複雜物理互動中的回饋品質。
研究提出階層優勢加權行為克隆法,以解決 VLA 線上上 RL 微調中僅獲取稀疏結果(成功/失敗)卻需要轉移層級監督的問題。該方法訓練兩個 Critic heads 分別關注可行性和效率,並透過狀態適應 gate 合成訊號。在實體雙手操作任務的實驗中,HABC 將成功率從先前基準線的 36% 顯著提升至 92%。