ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

見於先於思:解耦感知與推理以對抗多模態捷徑問題的自我知識萃取

研究 1 個來源 · 2 小時前
為何重要

ViGOS 完整地揭示了大型多模態模型在後訓練階段常見的「視覺權重失衡」風險,為開發者提供了一種解耦文字優勢資料與影像理解的新式訓練範式。這對於降低模型在檢測、Codebook 或分析等偏重視覺場景中的誤判率具有重要意義。對於架構設計者而言,如何在不使用受權優勢資料的情況下維持模型推理品質,將是下一輪競爭的技術焦點。

現有的 on-policy self-distillation (OPSD) 演算法擴充套件至多模態大語言模型 (MLLM) 時,容易因過度依賴文字參考而忽略影像資訊。研究者提出 ViGOS 架構,透過將感知與推論解耦,解決這類捷徑問題。

  • 核心問題:直接將 OPSD 應用於 MLLM 會產生捷徑,導致模型關註文字參考而非畫面,破壞原本的認知流程。
  • ViGOS 架構:採用雙教師監督策略,在有效推演中由「影像感知教師」監督畫面描述,並由「受權推理教師」監督後續推論。
  • 測試驗證:在 general vision-languagevisual mathspatial grounding 等多項基準上,ViGOS 在保留 OPSD 優勢的同時,顯著改善了易受捷徑影響的情況。
ViGOSMLLMOPSDSelf-DistillationMultimodalPost-Training

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00