DeepSeek-V4 上市後 43 天的效能追蹤與模組最佳化分析
為何重要
展示了硬體廠商與開源生態結合後,對於提升大型語言模型推理效率的實際影響力。
SemiAnalysis 的 InferenceX 團隊追蹤了 DeepSeek-V4 自 Day 0 上市至今的效能演進,重點分析其在 Huawei Ascend、NVIDIA GB300 NVL72 等硬體上的表現與最佳化成果。文章深入探討了核心元件的架構設計與應用,特別是針對計算與通訊延遲的迭代改善。團隊同時修正了 NVIDIA 在推論引擎上的細節問題,並透過 SGLang 等開源框架達成顯著的效能跳升。