幾何行動模型 用於機器人政策學習
為何重要
透過最小化架構修改,GAM 成功將大型模型的時間世界建模能力結合到這些模型的幾何先驗中,為接觸稠密的機器人意圖執行帶來更精準且高效的解決方案。
針對視覺語言行動模型多於 2D 影像或潛空間運作而缺乏 3D 幾何感的問題,研究提出 Geometric Action Model (GAM)。GAM 將預訓練的幾何基礎模型改造為共識基底,在架構加裝因果未來預測器,讓模型能基於語言、本體感覺與歷史動作預測未來狀態並產生行動。在廣泛的模擬與真實機器人操作測試中,GAM 在準確度、魯棒性及效率上均優於當前的大型模型基準。