LF AI 基金會推動 DocLang,打造專為 LLM 解析設計的檔案格式標準
為何重要
透過標準化檔案格式,企業可有效降低 LLM 處理檔案的 token 消耗成本並提升解析準確度。
IBM 與 NVIDIA 等公司推動 DocLang 格式,試圖取代 PDF 等現有檔案標準,以解決 LLM 解析時遺失語意與結構造成的成本與準確度問題。此標準利用 XML 語彙建立與 LLM tokenizers 的 1 對 1 對映,確保輸出資料結構穩定且無損。測試顯示,相比 PDF,DocLang 能大幅降低 OCR 與文件解析所需的 token 數量,並減少產生幻覺的機率。