超越單語深度研究:使用 Cross-lingual BrowseComp-Plus 評估代理與檢索器
為何重要
此研究揭示了當前 Agent 在跨語言情境下整合資訊的關鍵難點,強調了未來系統在多語言環境下的架構設計需要更最佳化的語言匹配與推理機制。
研究人員推出 Cross-lingual BrowseComp-Plus (XBCP) 基準,用於評估深度研究代理在證據與查詢語言不一致時的表現。研究結果顯示,當證據來源與查詢語言不符時,無論檢索器效能如何,代理的準確率與引用忠實度都會顯著下滑。