ACE-Ego-0:統一視角化人機資料進行 VLA 預訓練
為何重要
利用視角化影片作為替代監督訓練源,大幅降低了開發具身 VLA 模型的資料收整合本與門檻。
面對高成本的機器人軌跡收集難題,ACE-EGO-0 介紹了一個統一的 VLA 預訓練框架,將視角化人類影片轉換為機器人可解讀的偽軌跡標籤,並利用可靠性感知訓練目標有效解決人機資料差異化的問題。實驗顯示,在涵蓋四點五三個小時的機器與模擬資料及一點四八個小時偽標籤人類影片的訓練下,該模型在 RoboCasa 和 RoboTwin 2.0 測試上達到 SOTA,並展現出強大的雙手操作遷移能力。