誰會翻盤?自我與跨模型反駁揭露 LLM 答案不穩性
為何重要
為 AI 可靠性評估提供了關鍵的新指標,揭示模型在互動情境下的思維不穩定問題。
研究指出,傳統準確率評估無法測量 LLM 在面對合理反駁時改變正確答案的傾向。透過新協議評估 7 個前沿模型,發現它們在 57 個 MMLU 主題上的「翻盤率」差異極大,從 17.5% 到 97.3% 不等。此外,研究證實「自我歸因」與跨模型論證會顯著增加翻盤風險,並建構了名為 MaxFlip 的挑戰資料集以提高評測強度。
為 AI 可靠性評估提供了關鍵的新指標,揭示模型在互動情境下的思維不穩定問題。
研究指出,傳統準確率評估無法測量 LLM 在面對合理反駁時改變正確答案的傾向。透過新協議評估 7 個前沿模型,發現它們在 57 個 MMLU 主題上的「翻盤率」差異極大,從 17.5% 到 97.3% 不等。此外,研究證實「自我歸因」與跨模型論證會顯著增加翻盤風險,並建構了名為 MaxFlip 的挑戰資料集以提高評測強度。