人工推理之謎:探究大型推理模型的「生產-評估」差距
為何重要
該研究確立了當前大型推理模型在效能評估上的關鍵缺陷,強調未來模型開發必須將嚴謹的邏輯驗證能力納入訓練與評估指標。
研究發現大型推理模型(LRMs)在「生成推理」與「評估推理」間存在顯著落差:頂級模型在解題時接近完美,但在鑑別答案正確但步驟不當的解法時,表現僅約 48%。透過 VAIR 資料集的分析顯示,模型具有內建的「確認偏誤」,傾向於以結果是否相符來判斷,而非嚴格核對步驟,導致無法區分有效的演算邏輯。這項研究指出當前主流訓練演算法中,單純強調答案生成的潛在盲點。