顛覆 FP4 訓練認知:解析 E2M1 完美幾何誤差與統一格式 UFP4 食譜
為何重要
這項研究精準定位了低位元量化訓練中長久以來的「噪音來源」,將因GPU硬體架構侷限性導致的「幾何誤差」與類似 RaBit/吳恩達的智慧量化邏輯區分開來。對開發者而言,UFP4 提供了比傳統 E2M1 更穩定的訓練路徑;對產業而言,它清楚傳遞出硬體設計指標:未來的加速晶片(如 Blackwell 系列的繼任者)必須將 E1M2/INT4 統一網格視為與 E2M1 同等重要的一級訓練原語,否則難以在低位元訓練效能上取得進一步突破。
現行 LLM 預訓練雖廣泛採用 NVIDIA/AMD 的 E2M1 FP4 格式,但此格式存在因幾何不對稱導致的系統性 「收縮偏差(Shrinkage Bias)」。本研究提出 UFP4 改善方案,透過使用統一網格與限定 dY 的隨機取捨,解決了訓練不穩定的問題。
- E2M1 格式因幾何不對稱產生收縮偏差,此誤差會隨層深累加並被 隨機哈達瑪變換(RHT) 放大,導致訓練不穩定。
- 提出的 UFP4(統一 FP4) 食譜將隨機取捨僅侷限於 dY,並在所有三個矩陣運算(GEMM)中採用統一網格。
- 在 Dense 1.5B 及 MoE 7.9B 與 124B 模型的長期預訓練中,UFP4 的 BF16 相對損失降幅優於強勢的 E2M1 基線模型。
- 結論建議未來加速器應將 E1M2/INT4 型別的統一 4 位元網格列為一級訓練原語。