LaWAM:用於高效動態感知機器人策略的潛在世界動作模型
為何重要
透過潛在空間預測取代畫素級重投影,LaWAM 顯著降低了機器人控制的運算延遲,有助於發展低成本、高反應的即時自主作業系統。
為瞭解決傳統 World-Action Model(WAM)依賴大量畫素運算且耗費資源的問題,研究人員發表 LaWAM,一種潛在版的世界動作模型。該模型不重建未來影片,而是利用潛在視覺子目標來預測場景動態,進而讓機器人進行動態感知控制。實測顯示該方法在 LIBERO 與 RoboTwin 上的成功率極高,且推理速度比傳統方式快 24 倍。