AlloSpatial:基礎模型的代理 Harness 空間推理框架
為何重要
為提升大語言模型與多模態模型的空間認知能力提供了一條可行路徑,證明結構化的「它我中心」表示與 Harness 機制能顯著改善模型在不確定環境中的規劃與決策效能。
AlloSpatial 寫出解決多模態基礎模型的空間推理脆弱問題,引入 World2Mind 模組與 Harness 機制,將「自我中心」觀察轉換為結構化的「它我中心」先驗,並透過熱啟動 reinforcement learning 整合至 Qwen3-VL。實驗顯示該框架在不需訓練的設定下,於視覺空間檢測(VSI-Bench)的指標上提升了 5%-18%,且具備在移除視覺輸入時進行推理的能力。