AFFORDANCE20Q:從物理屬性評估賦能推理
為何重要
這項基準測試揭示了大型語言模型在物理世界推理能力上的侷限性,證明現有模型缺乏像人類一樣進行細緻屬性推斷的能力。
為解決現有 LLM 評估過於依賴物件名稱的問題,研究推出了名為 AFFORDANCE20Q 的基準測試,採用 20 個問題的遊戲機制,強迫模型僅能根據物件的物理屬性(如形狀或材料)推斷其潛在用途。實驗結果顯示,15 項最先進 LLM 在該測試中與人類表現仍存在約 20 點的顯著差距。為縮小差距,研究團隊開發了 KB-Anchored Rule Induction (KARI) 管線,利用知識庫證據生成規則,成功將開源 LLM 的表現提升高達 15.2 點。