階層優勢加權：從稀疏劇本結果最佳化 VLA 線上 RL 微調

研究 1 個來源 · 1 天前

為何重要

此技術突破了線上學習受限於二元結果的瓶頸，能精確區分行為的效率差異，顯著提升模型在複雜物理互動中的回饋品質。

研究提出階層優勢加權行為克隆法，以解決 VLA 線上上 RL 微調中僅獲取稀疏結果（成功/失敗）卻需要轉移層級監督的問題。該方法訓練兩個 Critic heads 分別關注可行性和效率，並透過狀態適應 gate 合成訊號。在實體雙手操作任務的實驗中，HABC 將成功率從先前基準線的 36% 顯著提升至 92%。

HABCVLAOnline RLHierarchical AdvantageFine-tuningRobotics

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

階層優勢加權：從稀疏劇本結果最佳化 VLA 線上 RL 微調

來源 · 1 篇報導

相關動態 · 研究