ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

APT:透過動作專家預訓練提升 Vision-Language-Action 模型的指令泛化能力

研究 1 個來源 · 2 天前
為何重要

解決 VLA 資料結構性失衡導致依賴視覺捷徑的問題,提升模型長尾語言指令的泛化能力。

現有 Vision-Language-Action (VLA) 模型對未見過的語言指令通常泛化不佳。研究人員提出 APT,一種結合貝葉斯視角與兩階段方法的解決方案:它先在凍結的 VLM 視覺-動作對上預訓練動作專家作為先驗,再透過門控融合機制整合語言特徵。此方法適用於主流 VLA 架構(如 π 和 GR00T),在不見過的指令和組合任務上產生了穩定的效能提升。

APTVLAVision-Language-ActionPretrainingBayesian

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00