LegalHalluLens：用型別判斷與多方辯論來審計法律 AI 的幻覺問題

研究 1 個來源 · 2 小時前

為何重要

法律產業對資訊精確度要求極高，單純的準確率數字無法說明哪些環節有風險。本研究的核心價值在於證實了「型別化診斷」結合「多方辯論」是提升中小規模模型（4B 引數）在法律場景可信度的有效路徑，有助於降低對超大型模型（LLM）的依賴。

法律 AI 系統普遍存在約 52% 的幻覺率，且現有匯總指標無法顯示錯誤的集中型別與方向，導致部署時缺乏可信的依據。LegalHalluLens 是一個專為法律場景設計的審計框架，旨在提供可執行的訊號。

技術組成：包含四種法律陳述型別的幻覺設定檔、一個用於降低省略與產生偏差（omission vs. invention）的風險方向指數（RDI），以及經標定的多方辯論管道。
規模與資料：研究在 510 份合約和 249,252 個條款例項上進行，發現不同型別的陳述之間存在 38-40 個百分點的模型內差異。
系統效能：標定後的辯論管道減少了 45% 的虛假檢測，並在僅使用 4B 個主動引數的較小後端模型上，其效能可匹配商業 APIs。
實用意義：該框架能夠發掘出匯總指數隱藏的失敗模式，並作為多代理設計的校準輸入。

LegalHalluLensLegal AIHallucinationCUADMulti-Agent Debate

相關動態 · 研究