NVIDIA 加速 Google DeepMind DiffusionGemma 模型於本地 AI 執行
為何重要
這項技術突破展示瞭如何在 GPU 上利用計算優勢來大幅降低延遲,為本地低延遲的單使用者應用程式帶來新的部署選擇。
Google DeepMind 發布的 DiffusionGemma 採用擴散技術實現多 token 並行生成,突破傳統 LLM 逐字生成的瓶頸。NVIDIA 將其最佳化至 NVIDIA GeForce RTX GPU、RTX PRO 平臺及 DGX Spark 上,使得單使用者模式下每秒產生 1,000~2,000 tokens,效能比荷音模型快約 4 倍。該模型基於 Gemma 4(26B 引數)架構提供 Apache 2.0 開源授權,並透過 Hugging Face Transformers、vLLM 等工具提供開箱即用的支援。