SciOrch:學習協調專家 LLM 以解決前沿多模態科學推理任務
為何重要
SciOrch 展示了透過「路由與協調」最佳化而非依賴單一地基模型權重,可以在多模態科學推理任務中取得超越封閉模型的成績,這為開發者提供了一條利用現有商業 API 解決高難度問題的有效路徑。此成果暗示 AI 產業未來的重心可能從單體模型的單點突破,轉向如何更聰明地組合、分派與管理現有的多模型生態。
前沿科學推理向來是大型語言模型(LLM)的痛點,即使是最強大的商業系統也難以兼顧所有專家層級能力;研究發現不同尖端模型之間具有顯著的互補性。團隊提出 SciOrch 框架,訓練一個輕量級 8B 模型作為協調器,透過 API 呼叫將子問題委派給適合的商用尖端模型並綜合答案。
- 面對昂貴且高延遲的 API 呼叫約束,研究匯入基於 MCTS 的方法與 GRPO 風格訓練策略來最佳化協調器。
- 在涵蓋 SGI-Reasoning 與科學家入學考題的測試集上達到 56.66% 平均準確率。
- 效能優於最強單一商業模型 3.74% 優勢,且 API 成本低於典型的多代理方法。