ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

階層優勢加權:從稀疏劇本結果最佳化 VLA 線上 RL 微調

研究 1 個來源 · 1 天前
為何重要

此技術突破了線上學習受限於二元結果的瓶頸,能精確區分行為的效率差異,顯著提升模型在複雜物理互動中的回饋品質。

研究提出階層優勢加權行為克隆法,以解決 VLA 線上上 RL 微調中僅獲取稀疏結果(成功/失敗)卻需要轉移層級監督的問題。該方法訓練兩個 Critic heads 分別關注可行性和效率,並透過狀態適應 gate 合成訊號。在實體雙手操作任務的實驗中,HABC 將成功率從先前基準線的 36% 顯著提升至 92%。

HABCVLAOnline RLHierarchical AdvantageFine-tuningRobotics

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00