一声棒喝,本不立文字
偏要著録,已是二义

vLLM · 官方博客

vLLM 登顶 Artificial Analysis 排行榜

vLLM Tops the Artificial Analysis Leaderboard

二〇二六年五月十四日 · 英文原文

DigitalOcean 发布了基于开源引擎 vLLM 在 NVIDIA Blackwell Ultra 芯片上部署 DeepSeek V3.2、MiniMax-M2.5 和 Qwen 3.5 397B 的推理基准测试。在 DeepSeek V3.2 上实现每用户 230 TPS 输出吞吐量,在 Qwen 3.5 397B 上于 Artificial Analysis 所有 12 家提供商中排名第一。优化包括针对 DeepSeek V3.2 的 kernel 融合(每层 kernel 从 33 降至 10)、MiniMax-M2.5 的自定义 EAGLE3 draft 模型(使用 TorchSpec 训练)以及 Qwen 3.5 的线性注意力路径融合。所有改动已或正被加入 vLLM 主线。

Image 1 vLLM 如何构建了 DeepSeek V3.2、MiniMax-M2.5 和 Qwen 3.5 397B 的领先部署。

上周,DigitalOcean 发布了 三个前沿开放权重模型的推理基准测试。在 DeepSeek V3.2 上,该部署实现了每用户最佳输出吞吐量 230 TPS——比大多数推理提供商对同一模型报告的结果高出 4 倍以上。在 Qwen 3.5 397B 版本上,它在 Artificial Analysis 测量的所有 12 家提供商中排名第一,在 10,000 token 的 prompt 上 TTFT 低于 1 秒。

值得注意的部分是:底层的引擎是开源的。它就是 vLLM。

在生产级 AI 中,一个常见的假设是,最佳的推理性能需要专有堆栈。然而,在这个案例中,一个运行在相同 NVIDIA Blackwell Ultra 芯片上的社区构建推理引擎却排名第一。

这些结果背后的优化并未锁定在私有分支中。针对 DeepSeek V3.2 的算子融合、针对 MiniMax-M2.5 的自定义 EAGLE3 draft 模型,以及针对 Qwen 3.5 线性注意力路径调整的一组融合;每一项改动都在 vLLM 主线中,或正在被添加。

这篇文章将介绍这个部署是如何构建的。

vLLM 如何实现高速

这项工作分布在三个模型上,每个模型都有其自身的瓶颈和相应的解决方案。

  1. DeepSeek V3.2:激进的 kernel 融合,以降低小 batch size 下的开销(也适用于 DeepSeek V4)。
  2. MiniMax-M2.5:针对性的 kernel 融合,搭配一个自定义的 EAGLE3 draft 模型——该模型在开源 TorchSpec 和 vLLM 上训练,尽管模型本身是自定义的。相同的 draft 也适用于 M2.7;两者的架构相同。
  3. Qwen 3.5 397B:针对模型注意力和归一化路径的针对性融合。

以下各节将依次介绍每个模型。

DeepSeek V3.2:小 Batch Size 下的 Kernel 融合

在小 batch size 下,DeepSeek V3.2 的瓶颈在于 GPU kernel 启动开销,而非计算。每个 transformer 层会发出数十个独立的 kernel——像归一化、旋转位置编码(rotary embedding)和量化这样的小操作,GPU 本身执行只需微秒,但每个操作都带有固定的启动成本,占据了总时间的主导地位。

解决方案是在注意力路径上进行算子融合。之前作为独立 kernel 启动的操作——Q 和 KV 归一化、Q 和 KV 的旋转位置编码、索引器的 layer norm 和旋转位置编码、FP8 量化以及 KV cache 写入——被合并为一对融合 kernel,覆盖了注意力和 MoE 之外的所有内容。每层的 kernel 数量从约 33 个下降到约 10 个的目标。

Image 2: 图 1:DSv3.2 注意力路径融合将每层约 33 次 kernel 启动缩减为约 10 次,在 batch size 为 1 时实现了 1.28 倍的加速。

图 1:DSv3.2 注意力路径融合将每层约 33 次 kernel 启动缩减为约 10 次,在 batch size 为 1 时实现了 1.28 倍的加速。

仅融合一项就在 batch size 为 1 时实现了 1.28 倍的加速(在 4× GB200 上,无 MTP,从 85.8 tok/s 提升至 109.3 tok/s)。在单个 8× B300 节点上,并发度为 1 时:

除了融合之外,两个 DSv3.2 特有的 kernel 填补了剩余的差距。一个新的 router GEMM kernel——专门针对小 decode batch size 下的 DSv3 MoE 路由维度进行了优化——取代了通用的 matmul,在 batch 1 时带来了额外的 6% 加速(#34302)。

对于稀疏注意力索引器,一个新的 TopK kernel 会根据序列长度为每行选择正确的算法,将所有情况适配到单个 CUDA graph 中。这在 128K 上下文 decode 上贡献了高达 17% 的每 token 延迟改进(#37421)。

同样的工作现在构成了 vLLM 对 DeepSeek V4 支持 的基础,该支持复用了本工作中的 Q RoPE + 量化和 QK norm 融合。结果如下所示。

Image 3: 图 2:DeepSeek V3.2 非推理模式,各提供商的输出速度。

图 2:DeepSeek V3.2 非推理模式,各提供商的输出速度。

来源:Artificial Analysis,2026 年 5 月。

Image 4: 图 3:DeepSeek V3.2 推理模式,各提供商的输出速度。

图 3:DeepSeek V3.2 推理模式,各提供商的输出速度。

来源:Artificial Analysis,2026 年 5 月。

MiniMax-M2.5:EAGLE3 与更多 Kernel 融合

Inferact 团队使用 TorchSpec 为 MiniMax-M2.5 训练了一个自定义的 EAGLE3 draft 模型。TorchSpec 是一个 torch 原生的在线推测解码框架,可同时运行 FSDP draft 训练和基于 vLLM 的目标推理。该 draft 并非从通用的监督数据集中学习,而是消费 MiniMax-M2.5 重新生成的响应上的实时 vLLM 生成的隐藏状态,从而训练其匹配基础模型的精确 token 分布。

vLLM 的 MRV2 路径中的推测解码基础设施改进使这成为可能:一个 draft 模型元数据修复,提高了后续 draft 位置的接受率(#38311),以及 draft prefill 的 CUDA graph 支持(#37588)。

除了 draft 模型之外,MiniMax M2.5 还获得了针对性的 kernel 融合工作。添加了一个自定义的 QK-norm 融合(fuse_minimax_qk_norm)来处理模型非标准的注意力归一化,其中在应用每通道缩放之前,Q 和 K 的方差会在 tensor-parallel rank 之间进行缩减(#37045)。

Image 5: 图 4:跨四个 tensor-parallel rank 的 fuse_minimax_qk_norm 剖析。

图 4:跨四个 tensor-parallel rank 的 fuse_minimax_qk_norm 剖析。

通过此融合以及标准的 fuse_norm_quantfuse_act_quantfuse_gemm_comms 通道,上限实验达到了:

这代表了在完美 draft 模型下服务堆栈的上限,将融合工作的贡献与 draft 模型质量分离开来。

Image 6: 图 5:MiniMax-M2.5,各提供商的输出速度。

图 5:MiniMax-M2.5,各提供商的输出速度。

来源:Artificial Analysis,2026 年 5 月。

Qwen 3.5 397B:线性注意力与融合缺口

Qwen 3.5 在其注意力块中使用了带有非标准归一化的线性注意力。这两种架构选择都与 vLLM 的标准融合基础设施产生了尴尬的交互:投影后的卷积路径是线性注意力模型独有的,并且归一化变体与 vLLM 现有 allreduce_rms 融合所寻找的模式不匹配。

代价在 profiler 中显现出来。由于错过了 allreduce_rms 融合,大约一半的 decode 时间花费在未融合的跨设备 reduce 上——这正是融合本应消除的开销类型。模型在运行,数字也是正确的,但引擎执行的内存往返次数超出了必要。

四项工作填补了这一缺口:

Image 7: 图 6:vLLM 中的 Qwen 3.5 397B kernel 融合工作。

图 6:vLLM 中的 Qwen 3.5 397B kernel 融合工作。

结合 TP=8 和 expert parallelism,生产部署达到了:

这项工作已随 vLLM 主线发布。

Image 8: 图 7:Qwen 3.5 397B,各提供商的输出速度。

图 7:Qwen 3.5 397B,各提供商的输出速度。

来源:Artificial Analysis,2026 年 5 月。

这对 vLLM 意味着什么

这些结果背后的优化——DSv3.2 注意力路径融合、MiniMax EAGLE3 draft 模型训练方案以及 Qwen 3.5 融合——要么已经上游到 vLLM 主线,要么正在上游的路上。在当前 vLLM 上运行这些模型的团队将获得相同的加速效果。

开源成为默认选择

从历史上看,最快的推理堆栈一直是专有的——由超大规模云厂商、模型实验室和芯片供应商为其自身基础设施构建和调优。开源替代方案虽然广泛可用,但在生产性能上往往落后。

这种情况在推理层已不复存在。vLLM 现在在其支持的模型上位居 Artificial Analysis 排行榜榜首。在这些基准测试中,世界上最快的推理是开源的。现代 AI 底层的基础设施正在追随这一趋势。

致谢

感谢 Inferact、DigitalOcean、NVIDIA、Red Hat 以及 vLLM 开源社区对这项计划的贡献。

译自 vLLM · 官方博客 · 录于 二〇二六年五月十四日