ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

LF AI 基金會推動 DocLang,打造專為 LLM 解析設計的檔案格式標準

工具 2 個來源 · 1 天前
為何重要

透過標準化檔案格式,企業可有效降低 LLM 處理檔案的 token 消耗成本並提升解析準確度。

IBM 與 NVIDIA 等公司推動 DocLang 格式,試圖取代 PDF 等現有檔案標準,以解決 LLM 解析時遺失語意與結構造成的成本與準確度問題。此標準利用 XML 語彙建立與 LLM tokenizers 的 1 對 1 對映,確保輸出資料結構穩定且無損。測試顯示,相比 PDF,DocLang 能大幅降低 OCR 與文件解析所需的 token 數量,並減少產生幻覺的機率。

DocLangLLMtokensPDFOCRAI

來源 · 2 篇報導

首發 The Register theregister.com 07:23 首發 The Register theregister.com 07:23