ChLogic：評估中文表達中邏輯推論的穩健性

研究 1 個來源 · 1 小時前

為何重要

ChLogic 提供了一個關鍵的壓力測試工具，協助開發者識別並改善多語言大模型在翻譯與情境轉換時的邏輯推理強健性。

為了檢驗大型語言模型在不同語言間傳遞相同的邏輯結構時能否保持穩健性，研究團隊推出了 ChLogic 這項英中對齊的評測基準。該基準包含一般口語與困難難題兩組對齊資料集，以及一組純中文資料集，共對應 145 個邏輯命題。實驗結果發現，GLM、Qwen3 等模型在英中文語境轉換中存在持續表現落差，且傳統的回譯策略對複雜題目的表現反而可能有負面影響。

ChLogicLarge language modelsLogical reasoningQwen3GLMMinistral

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

ChLogic：評估中文表達中邏輯推論的穩健性

來源 · 1 篇報導

相關動態 · 研究