Nemotron 3 Ultra:開源、高效能混合 MoE 與 Mamba-Transformer 模型
為何重要
為長時間執行的自主代理任務提供了兼具高推理吞吐量與開源生態的強大模型解決方案。
NVIDIA 發布 Nemotron 3 Ultra,這是一個 550 億總引數、55 億活躍引數的混合 Mixture-of-Experts 與 Mamba-Attention 語言模型。該模型投入 20T tokens 進行預訓練,並將上下文長度擴充套件至 1M tokens,結合 NVFP4 預訓練與多環境 RLVR 等技術。它在維持最先進精確度的同時,將推理吞吐量提升至現未公開 LLM 的約 6 倍;NVIDIA 更在 Hugging Face 上提供完整的開源模型與訓練食譜。