NVIDIA 透過進階融合 Kernel 提升大規模 MoE 模型訓練吞吐量
為何重要
透過硬體層面的 Kernel 最佳化顯著提升 MoE 模型訓練效率,讓開發者能在有限的算力預算下建置更具規模的高效能模型。
NVIDIA 發布技術blog,說明如何運用進階的融合 Kernel 來強化 Mixture-of-experts (MoE) 模型在訓練階段的吞吐表現。MoE 模型透過僅對每個 Token 啟用部分引數,實現了在實際運算預算內大幅擴充模型容量的能力。NVIDIA 的這項技術旨在透過最佳化基礎運算流程來突破訓練效率的瓶頸。