ImageWAM:世界動作模型真的需要影片生成,還是隻要影像編輯即可?
為何重要
本研究直接挑戰了世界動作模型必須建構臨時性影片才能達到視覺建模的主流觀點,證明影像編輯作為先驗能有效聚焦於任務相關的變化區域,顯著降低運算負擔。對於開發具身智慧體的工程師而言,這提供了一條利用現有影像編輯資產建構高效控制模型的路徑,推動機器人互動走向更輕量化與即時化的落實。此外,這也為需要低功耗執行的邊緣機器人應用提供了新的技術指標。
針對依賴影片生成的 World Action Models(WAM)常見的高推論成本與算力浪費問題,研究提出 ImageWAM 框架,透過改用預訓練的影像編輯模型作為先驗,來進行機器人動作預測。
- ImageWAM 在推論時並不生成最終畫面解碼,而是使用影像編輯降噪過程中產生的 KV caches 作為緊湊的世界動作情境上下文。
- 該方法優於標準 VLA 基線以及同等效能的 WAM,且不需要額外的政策預訓練。
- 效率上,它將運算量(FLOPs)降低至影片式 WAM 的 1/6,延遲降低至 1/4。