Taylor-Calibrate:混合線性注意力蒸餾的原則性初始化
為何重要
這項技術直接解決了長上下文模型在遷移與微調中的算力浪費問題,能讓開發團隊在保持模型品質的前提下,大幅縮減訓練時間與資源。對於追求成本最佳化的產業界來說,這是一個將理論成果迅速轉化為實際營運效率的工具。
為瞭解決全 softmax Attention 的計算成本問題,混合線性注意力模型成為加速長上下文推理的關鍵架構,但其從預訓練 Transformer 遷移的過程常因初始化不當而導致效能低落。新研究提出 Taylor-Calibrate 方法,透過統計學手段精確設定引數以最佳化 GDN 模型的初始化狀態。
- 原本研究發現,僅簡單複製投影矩陣無法定義 GDN 學生模型的遞迴衰減、寫入閘門等動態特徵,導致模型進入執行極差區域。
- Taylor-Calibrate 利用「Taylor 引導的教師注意力統計」設定價值投射、記憶時間尺度、寫入與輸出閘門。
- 實驗結果顯示,該方法在代表性消融實驗中提升 88 倍改進,且僅需傳統方法 4.9x 到 9.2x 的訓練 Token 即可達成恢復目標。