顛覆 FP4 訓練認知：解析 E2M1 完美幾何誤差與統一格式 UFP4 食譜

研究 1 個來源 · 2 小時前

為何重要

這項研究精準定位了低位元量化訓練中長久以來的「噪音來源」，將因GPU硬體架構侷限性導致的「幾何誤差」與類似 RaBit/吳恩達的智慧量化邏輯區分開來。對開發者而言，UFP4 提供了比傳統 E2M1 更穩定的訓練路徑；對產業而言，它清楚傳遞出硬體設計指標：未來的加速晶片（如 Blackwell 系列的繼任者）必須將 E1M2/INT4 統一網格視為與 E2M1 同等重要的一級訓練原語，否則難以在低位元訓練效能上取得進一步突破。

現行 LLM 預訓練雖廣泛採用 NVIDIA/AMD 的 E2M1 FP4 格式，但此格式存在因幾何不對稱導致的系統性 「收縮偏差（Shrinkage Bias）」。本研究提出 UFP4 改善方案，透過使用統一網格與限定 dY 的隨機取捨，解決了訓練不穩定的問題。

E2M1 格式因幾何不對稱產生收縮偏差，此誤差會隨層深累加並被 隨機哈達瑪變換（RHT） 放大，導致訓練不穩定。
提出的 UFP4（統一 FP4） 食譜將隨機取捨僅侷限於 dY，並在所有三個矩陣運算（GEMM）中採用統一網格。
在 Dense 1.5B 及 MoE 7.9B 與 124B 模型的長期預訓練中，UFP4 的 BF16 相對損失降幅優於強勢的 E2M1 基線模型。
結論建議未來加速器應將 E1M2/INT4 型別的統一 4 位元網格列為一級訓練原語。

FP4UFP4E2M1E1M2LLM TrainingQuantization

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00

顛覆 FP4 訓練認知：解析 E2M1 完美幾何誤差與統一格式 UFP4 食譜

來源 · 1 篇報導

相關動態 · 研究