超越單語深度研究：使用 Cross-lingual BrowseComp-Plus 評估代理與檢索器

研究 1 個來源 · 1 小時前

為何重要

此研究揭示了當前 Agent 在跨語言情境下整合資訊的關鍵難點，強調了未來系統在多語言環境下的架構設計需要更最佳化的語言匹配與推理機制。

研究人員推出 Cross-lingual BrowseComp-Plus (XBCP) 基準，用於評估深度研究代理在證據與查詢語言不一致時的表現。研究結果顯示，當證據來源與查詢語言不符時，無論檢索器效能如何，代理的準確率與引用忠實度都會顯著下滑。

BenchmarkDeep Research AgentsCross-lingualRAGRetrieval

相關動態 · 研究