NVIDIA 加速 Google DeepMind DiffusionGemma 模型於本地 AI 執行

模型 3 個來源 · 4 小時前

為何重要

這項技術突破展示瞭如何在 GPU 上利用計算優勢來大幅降低延遲，為本地低延遲的單使用者應用程式帶來新的部署選擇。

Google DeepMind 發布的 DiffusionGemma 採用擴散技術實現多 token 並行生成，突破傳統 LLM 逐字生成的瓶頸。NVIDIA 將其最佳化至 NVIDIA GeForce RTX GPU、RTX PRO 平臺及 DGX Spark 上，使得單使用者模式下每秒產生 1,000~2,000 tokens，效能比荷音模型快約 4 倍。該模型基於 Gemma 4（26B 引數）架構提供 Apache 2.0 開源授權，並透過 Hugging Face Transformers、vLLM 等工具提供開箱即用的支援。

DiffusionGemmaGoogle DeepMindNVIDIAGemma 4Local AI

來源 · 3 篇報導

首發 NVIDIA Blog blogs.nvidia.com 00:15 首發 NVIDIA Newsroom blogs.nvidia.com 00:15 首發 NVIDIA Newsroom blogs.nvidia.com 00:15

NVIDIA 加速 Google DeepMind DiffusionGemma 模型於本地 AI 執行

來源 · 3 篇報導

相關動態 · 模型