Multi-LCB:擴充套件 LiveCodeBench 以支援多種程式語言
為何重要
程式碼生成的評估標準正從單一語言擴充套件至實務所需的跨語言範疇,以避免 Python 專屬資料對模型能力判斷的偏誤。此基準揭露了當前主流 LLM 若僅在 Python 上表現優異,未必具備處理 Java、C++ 等語言真實需求的能力,促使開發者在模型選型時更重視泛化性與健壯性。
- LiveCodeBench (LCB) 長期僅限於 Python 進行程式碼生成評估,限制了模型跨語言泛化能力的測試。
- 研究團隊推出 Multi-LCB 基準,支援 12 種程式語言(含 Python),並透過保留無汙染控制機制與 LCB 格式來追蹤未來更新。
- 對 24 種大型語言模型的評估顯示出 Python 過度擬合、語言特異汙染以及跨語言效能差異的現象。