見於先於思：解耦感知與推理以對抗多模態捷徑問題的自我知識萃取

研究 1 個來源 · 2 小時前

為何重要

ViGOS 完整地揭示了大型多模態模型在後訓練階段常見的「視覺權重失衡」風險，為開發者提供了一種解耦文字優勢資料與影像理解的新式訓練範式。這對於降低模型在檢測、Codebook 或分析等偏重視覺場景中的誤判率具有重要意義。對於架構設計者而言，如何在不使用受權優勢資料的情況下維持模型推理品質，將是下一輪競爭的技術焦點。

現有的 on-policy self-distillation (OPSD) 演算法擴充套件至多模態大語言模型 (MLLM) 時，容易因過度依賴文字參考而忽略影像資訊。研究者提出 ViGOS 架構，透過將感知與推論解耦，解決這類捷徑問題。

核心問題：直接將 OPSD 應用於 MLLM 會產生捷徑，導致模型關註文字參考而非畫面，破壞原本的認知流程。
ViGOS 架構：採用雙教師監督策略，在有效推演中由「影像感知教師」監督畫面描述，並由「受權推理教師」監督後續推論。
測試驗證：在 general vision-language、visual math、spatial grounding 等多項基準上，ViGOS 在保留 OPSD 優勢的同時，顯著改善了易受捷徑影響的情況。

ViGOSMLLMOPSDSelf-DistillationMultimodalPost-Training

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

見於先於思：解耦感知與推理以對抗多模態捷徑問題的自我知識萃取

來源 · 1 篇報導

相關動態 · 研究