見於先於思:解耦感知與推理以對抗多模態捷徑問題的自我知識萃取
為何重要
ViGOS 完整地揭示了大型多模態模型在後訓練階段常見的「視覺權重失衡」風險,為開發者提供了一種解耦文字優勢資料與影像理解的新式訓練範式。這對於降低模型在檢測、Codebook 或分析等偏重視覺場景中的誤判率具有重要意義。對於架構設計者而言,如何在不使用受權優勢資料的情況下維持模型推理品質,將是下一輪競爭的技術焦點。
現有的 on-policy self-distillation (OPSD) 演算法擴充套件至多模態大語言模型 (MLLM) 時,容易因過度依賴文字參考而忽略影像資訊。研究者提出 ViGOS 架構,透過將感知與推論解耦,解決這類捷徑問題。
- 核心問題:直接將 OPSD 應用於 MLLM 會產生捷徑,導致模型關註文字參考而非畫面,破壞原本的認知流程。
- ViGOS 架構:採用雙教師監督策略,在有效推演中由「影像感知教師」監督畫面描述,並由「受權推理教師」監督後續推論。
- 測試驗證:在 general vision-language、visual math、spatial grounding 等多項基準上,ViGOS 在保留 OPSD 優勢的同時,顯著改善了易受捷徑影響的情況。