APT:透過動作專家預訓練提升 Vision-Language-Action 模型的指令泛化能力
為何重要
解決 VLA 資料結構性失衡導致依賴視覺捷徑的問題,提升模型長尾語言指令的泛化能力。
現有 Vision-Language-Action (VLA) 模型對未見過的語言指令通常泛化不佳。研究人員提出 APT,一種結合貝葉斯視角與兩階段方法的解決方案:它先在凍結的 VLM 視覺-動作對上預訓練動作專家作為先驗,再透過門控融合機制整合語言特徵。此方法適用於主流 VLA 架構(如 π 和 GR00T),在不見過的指令和組合任務上產生了穩定的效能提升。