APT：透過動作專家預訓練提升 Vision-Language-Action 模型的指令泛化能力

研究 1 個來源 · 2 天前

為何重要

解決 VLA 資料結構性失衡導致依賴視覺捷徑的問題，提升模型長尾語言指令的泛化能力。

現有 Vision-Language-Action (VLA) 模型對未見過的語言指令通常泛化不佳。研究人員提出 APT，一種結合貝葉斯視角與兩階段方法的解決方案：它先在凍結的 VLM 視覺-動作對上預訓練動作專家作為先驗，再透過門控融合機制整合語言特徵。此方法適用於主流 VLA 架構（如 π 和 GR00T），在不見過的指令和組合任務上產生了穩定的效能提升。

APTVLAVision-Language-ActionPretrainingBayesian

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

APT：透過動作專家預訓練提升 Vision-Language-Action 模型的指令泛化能力

來源 · 1 篇報導

相關動態 · 研究