宣布 vLLM 对 NVIDIA Nemotron 3 Ultra 的 Day-0 支持

Announcing Day-0 Support for NVIDIA Nemotron 3 Ultra on vLLM

二〇二六年六月四日 · 英文原文

摘要

vLLM 宣布对 NVIDIA Nemotron 3 Ultra 提供 Day-0 支持。该模型采用混合 Transformer-Mamba 架构与 MoE，总参数量 550B、激活参数量 55B，支持最高 1M tokens 上下文长度。Nemotron 3 Ultra 针对长时间运行的自主 agent 工作流优化，涵盖编程、深度研究、企业自动化等任务。在 agent 生产力、指令遵循等 benchmark 上，该模型在开源模型中处于领先地位，并实现高达 30% 的成本节省。vLLM 在训练过程中作为 NeMo RL 的生成后端，支持多节点推理与评估。

我们激动地宣布，vLLM 现已提供对最新发布的 NVIDIA Nemotron 3 Ultra 的 Day-0 支持。

作为 Nemotron 开源模型家族的一员，Nemotron 3 Ultra 专为长时间运行的自主 agent 工作流中的前沿推理而构建。它适用于复杂编排、编程、深度研究、企业自动化以及其他需要 agent 进行规划、调用工具、从错误中恢复并在长上下文范围内进行推理的任务。

现代 agent 系统正变得越来越持久。它们不仅仅是回答单个 prompt；它们会搜索、编写代码、运行测试、检查失败、协调工具、评估证据，并在长时间的任务范围内持续工作。这些工作流要求模型既能维持推理深度，又能保持足够快的推理速度以用于实际部署。

Nemotron 3 Ultra 满足了高级 agentic AI 的两个主要需求：

快速任务完成：

长时间运行的 agent 需要的不仅仅是原始的模型智能。它们需要吞吐量，以便在相同的时间预算内完成更多的推理步骤。Nemotron 3 Ultra 结合了混合 Transformer-Mamba MoE 架构、多 token 预测（multi-token prediction）和 NVIDIA 优化的推理精度，为要求苛刻的 agent 工作负载提供高吞吐量。

高级 Agentic 推理：

Agent 工作流通常需要架构规划、多步调试、来源评估、法规审查或设计验证。Nemotron 3 Ultra 经过后训练，可在 agent 环境中进行推理、工具使用和指令遵循，帮助 agent 在不牺牲准确性的情况下推进复杂任务。

使用此模型，agent 系统可以更快地完成困难的推理工作流，同时在编程、工具调用、研究综合和企业自动化方面保持强劲性能。

vLLM 是 Nemotron 3 Ultra 训练工作流的关键组成部分，在整个训练过程中为 rollout 和模型评估提供高吞吐量的多节点推理。在 NeMo RL 中，vLLM 作为强化学习 rollout 的生成后端，支持高效采样、可扩展推理，并与 NeMo Gym 集成，用于多步和多轮训练环境。

Nemotron 团队还使用 vLLM 作为评估循环的一部分，帮助我们跟踪进展、验证改进，并了解训练的每个阶段是否将模型推向正确的方向。

TL;DR：关于 Nemotron 3 Ultra

架构： 混合专家（Mixture of Experts），采用混合 Transformer-Mamba 架构
- 模型大小：总参数量 550B，激活参数量 55B
- 上下文长度：最高 1M tokens
- 模态：文本输入，文本输出
效率： 支持 NVFP4 和 BF16 的高吞吐量推理。NVFP4 checkpoint 可在 Blackwell GPU 上运行。
推理： 针对长时间运行的自主 agent、工具调用、编程、深度研究和编排进行了优化
训练： 通过多环境强化学习进行后训练，以实现稳健的推理和 agent 行为
部署： 开放的权重、开放的数据和开放的配方，便于跨基础设施进行定制和部署
支持的 GPU：
- BF16：8x GB200/B200/GB300/B300，16x H100，8x H200
- NVFP4：4x GB200/B200/GB300/B300，8x H100
开始使用
- 从 Hugging Face 下载模型权重 - BF16，NVFP4
- 使用 vLLM 运行推理，参考入门 cookbook
- 阅读 Nemotron 3 Ultra 技术报告，了解架构、训练和 benchmark 详情

使用 vLLM 运行优化的 Agentic 推理

Nemotron 3 Ultra 专为跨 BF16 和 NVFP4 精度模式的高吞吐量 agentic 推理而设计。借助 vLLM，开发者可以通过兼容 OpenAI 的 API 提供模型服务，并将其集成到现有的 agent 框架、编程系统、研究流程和企业自动化工作流中。

如需更轻松地设置 vLLM，请参考 Nemotron 3 Ultra 入门 cookbook，或使用 NVIDIA Brev launchable 进行 NVFP4 部署。

安装 vLLM

docker pull vllm/vllm-openai:v0.22.0
 
docker run --rm -it --gpus all --ipc=host --network=host \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  --entrypoint /bin/bash \
  vllm/vllm-openai:v0.22.0

提供模型服务

以下命令针对 8x B200 配置。如果你的硬件不同，请根据环境调整并行度标志和相关设置。

export VLLM_USE_FLASHINFER_MOE_FP4=1
export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1
 
vllm serve nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4 \
  --served-model-name nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B \
  --host 0.0.0.0 \
  --port 8000 \
  --trust-remote-code \
  --tensor-parallel-size 8 \
  --kv-cache-dtype fp8 \
  --max-num-seqs 16 \
  --max-model-len 262144 \
  --gpu-memory-utilization 0.90 \
  --max-num-batched-tokens 32768 \
  --enable-flashinfer-autotune \
  --async-scheduling \
  --speculative_config.method mtp \
  --speculative_config.num_speculative_tokens 5 \
  --mamba-backend triton \
  --mamba-ssm-cache-dtype float32 \
  --reasoning-parser nemotron_v3 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder

服务器启动后，使用兼容 OpenAI 的客户端发送 prompt：

from openai import OpenAI
 
client = OpenAI(
    base_url="http://127.0.0.1:8000/v1",
    api_key="EMPTY",
)
 
resp = client.chat.completions.create(
    model="nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Give me 3 bullet points about vLLM"},
    ],
    temperature=1.0,
    top_p=0.95,
    max_tokens=1024,
)
 
msg = resp.choices[0].message
print("Reasoning:", getattr(msg, "reasoning", None))
print("Content:", msg.content)

有关 NVFP4 部署指南，请参考 Nemotron 3 Ultra vLLM cookbook。

长时间运行 Agent 的高吞吐量推理

Nemotron 3 Ultra 针对需要在多个步骤中持续推理的 agent 系统进行了优化。

如图 1、图 2 和图 3 所示，Nemotron 3 Ultra 在 agent 生产力、指令遵循和长上下文任务上的准确率领先，并提供了领先的吞吐量，与其他领先的开源模型相比，成本节省了 30%。

图 1：在 agent 生产力、编程和指令遵循的 agentic benchmark 上，Nemotron 3 Ultra 在开源模型中处于领先地位。

图 2：Nemotron 3 Ultra 处于最具吸引力的象限，在开源模型中兼具领先的准确率和领先的吞吐量。配置 - vLLM，ISL/OSL 为 10k/2k，BS 为 1。

图 3：Nemotron 3 Ultra 可节省高达 30% 的成本，并在成本效率前沿中处于领先地位。

为了缓解高容量推理模型典型的效率-准确率权衡问题，Nemotron 模型引入了深刻的架构创新：

针对 Agent Harness 进行后训练： Nemotron 模型使用 NVIDIA NeMo RL 和 Gym 在多个 agent harness 上进行后训练。它们针对领先的开源 agent harness 进行了优化，而不仅仅是单轮对话，并且专门针对 agent 进行规划、调用工具、读取观察结果、委派给子 agent、验证输出以及在多轮中从错误中恢复的工作流进行了优化。
混合 Mamba-Transformer： Mamba 层提高了长上下文工作负载的序列效率，而 Transformer 层在 agent 需要从大型上下文窗口中检索特定事实时保持了精确的召回能力。
潜在 MoE（Latent MoE）： 潜在 MoE 支持更高效的专家路由，帮助模型处理涵盖推理、代码生成、工具调用和领域特定逻辑的工作流。
多 Token 预测（MTP）： MTP 通过在一次前向传播中预测多个未来 token 来帮助减少生成时间，从而提高长输出和多轮工作流的吞吐量。
NVFP4 精度： 相同的 NVFP4 checkpoint 可在 NVIDIA Hopper 和 Blackwell GPU 上运行，因此得益于专门的 NVFP4 量化内核，开发者可以跨两种架构无缝使用一个 checkpoint。

总结

NVIDIA Nemotron 3 Ultra 是一个面向长时间运行自主 agent 的开放前沿推理模型。它结合了高吞吐量推理、长上下文推理、工具使用能力和开放的部署灵活性，适用于构建高级 agentic AI 系统的开发者和企业。

准备好构建更快、更强大的 agent 工作流了吗？

从 Hugging Face 下载模型权重 - BF16，NVFP4
使用 cookbook 在 vLLM 上运行 Nemotron 3 Ultra
阅读 Nemotron 3 Ultra 技术报告

通过订阅 NVIDIA 新闻并关注 NVIDIA AI 的 LinkedIn、X、YouTube 以及 Discord 上的 Nemotron 频道，随时了解 NVIDIA Nemotron 的最新动态。

致谢

感谢所有为将 NVIDIA Nemotron 3 Ultra 引入 vLLM 做出贡献的人。

NVIDIA：Nirmal Kumar Juluru, Anusha Pant, Alex Steiner, Tomer Asida, Daniel Afrimi, Shaun Kotek, Roi Koren, Daniel Serebrenik, Amir Klein, Omer Ullman Argov, Netanel Haber, Amit Zuker, Shahar Mor, Tomer Bar Natan

vLLM 团队和社区：Michael Goin, Kaichao You, Yongye Zhu, Roger Wang, Simon Mo, Woosuk Kwon, Yasong Wang, Nick Hill, Zachary Xi

译自 vLLM · 官方博客 · 录于二〇二六年六月四日