vllm-blog

vLLM 登顶 Artificial Analysis 排行榜

vLLM Tops the Artificial Analysis Leaderboard

二〇二六年五月十二日 · 英文原文

摘要

DigitalOcean 发布推理基准测试，vLLM 开源引擎在NVIDIA Blackwell Ultra芯片上部署DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B模型。DeepSeek V3.2实现每用户最佳输出吞吐量230 TPS，Qwen 3.5 397B在Artificial Analysis全部12家提供商中排名第一，10,000 token prompt下TTFT低于1秒。优化包括DSv3.2注意力路径kernel融合（每层kernel从33降至10）、MiniMax-M2.5自定义EAGLE3 draft模型（基于TorchSpec训练）及Qwen 3.5线性注意力融合，均已在vLLM主线中或正在添加。

vLLM 如何构建了 DeepSeek V3.2、MiniMax-M2.5 和 Qwen 3.5 397B 的领先部署。

上周，DigitalOcean 发布了推理基准测试，涵盖三个前沿开放权重模型。在 DeepSeek V3.2 上，该部署实现了每用户最佳输出吞吐量 230 TPS——比大多数推理提供商对同一模型报告的数值高出 4 倍以上。在 Qwen 3.5 397B 版本上，它在 Artificial Analysis 测量的全部 12 家提供商中排名第一，在 10,000 token 的 prompt 上 TTFT 低于 1 秒。

值得注意的部分是：底层的引擎是开源的。它就是 vLLM。

在生产 AI 中，一个常见的假设是，最佳的推理性能需要专有堆栈。然而，在这个案例中，一个运行在相同 NVIDIA Blackwell Ultra 芯片上的社区构建推理引擎却排名第一。

这些结果背后的优化并未锁定在私有分支中。针对 DeepSeek V3.2 的算子融合、针对 MiniMax-M2.5 的自定义 EAGLE3 draft 模型，以及一套针对 Qwen 3.5 线性注意力路径调优的融合；每一项改动都已存在于 vLLM 主线中，或正在被添加。

这篇文章将介绍这个部署是如何构建的。

vLLM 如何实现高速

这项工作分布在三个模型上，每个模型都有其自身的瓶颈和相应的解决方案。

DeepSeek V3.2：激进的 kernel 融合，以在低 batch size 下减少开销（也适用于 DeepSeek V4）。
MiniMax-M2.5：针对性的 kernel 融合，搭配一个自定义的 EAGLE3 draft 模型——该模型基于开源 TorchSpec 和 vLLM 训练，尽管模型本身是自定义的。相同的 draft 也适用于 M2.7；两者的架构相同。
Qwen 3.5 397B：针对模型注意力和归一化路径的针对性融合。

以下各节将依次介绍每个模型。

DeepSeek V3.2：低 Batch Size 下的 Kernel 融合

在低 batch size 下，DeepSeek V3.2 的瓶颈在于 GPU kernel 启动开销，而非计算。每个 transformer 层会发起数十个独立的 kernel——像归一化、旋转位置编码（rotary embedding）和量化这样的小操作，GPU 本身执行只需微秒级，但每个操作都带有固定的启动成本，占据了总时间的主导地位。

解决方案是在注意力路径上进行算子融合。之前作为独立 kernel 启动的操作——Q 和 KV 归一化、Q 和 KV 的旋转位置编码、索引器的 layer norm 和旋转位置编码、FP8 量化以及 KV cache 写入——被合并为一对融合 kernel，覆盖了注意力和 MoE 之外的所有内容。每层 kernel 数量从约 33 个降至约 10 个的目标。

Image 2: 图 1：DSv3.2 注意力路径融合将每层约 33 次 kernel 启动缩减至约 10 次，在 batch size 为 1 时实现了 1.28 倍的加速。

图 1：DSv3.2 注意力路径融合将每层约 33 次 kernel 启动缩减至约 10 次，在 batch size 为 1 时实现了 1.28 倍的加速。

仅融合一项就在 batch size 为 1 时实现了 1.28 倍的加速（在 4× GB200 上，无 MTP，从 85.8 tok/s 提升至 109.3 tok/s）。在单个 8× B300 节点上，并发度为 1 时：

无 MTP（TP=8）：125 tok/s
使用 MTP=1（TP=8）：234 tok/s（约 90% draft 接受率）
使用 prefill/decode 分离（TP=4 + TP=4 + MTP=3）：262 tok/s

除了融合之外，两个 DSv3.2 特有的 kernel 填补了剩余差距。一个新的 router GEMM kernel——专门针对 DSv3 在小 decode batch size 下的 MoE 路由维度进行了优化——取代了通用的 matmul，在 batch 1 时额外带来了 6% 的加速（#34302）。

对于稀疏注意力索引器，一个新的 TopK kernel 会根据序列长度为每行选择正确的算法，将所有情况适配到单个 CUDA graph 中。这为 128K 上下文 decode 带来了高达 17% 的每 token 延迟改善（#37421）。

同样的工作现在构成了 vLLM 对 DeepSeek V4 的支持的基础，该支持复用了本工作中的 Q RoPE + 量化以及 QK norm 融合。结果如下所示。

Image 3: 图 2：DeepSeek V3.2 非推理模式，各提供商的输出速度。

图 2：DeepSeek V3.2 非推理模式，各提供商的输出速度。

来源：Artificial Analysis，2026 年 5 月。

Image 4: 图 3：DeepSeek V3.2 推理模式，各提供商的输出速度。

图 3：DeepSeek V3.2 推理模式，各提供商的输出速度。

来源：Artificial Analysis，2026 年 5 月。

MiniMax-M2.5：EAGLE3 与更多 Kernel 融合

Inferact 团队使用 TorchSpec 为 MiniMax-M2.5 训练了一个自定义的 EAGLE3 draft 模型。TorchSpec 是一个 torch 原生的在线推测解码框架，可同时运行 FSDP draft 训练和基于 vLLM 的目标推理。该 draft 并非从通用的监督数据集中学习，而是消耗 MiniMax-M2.5 重新生成的响应上的实时 vLLM 生成的隐藏状态，从而训练其匹配基础模型的精确 token 分布。

vLLM 的 MRV2 路径中的推测解码基础设施改进使这成为可能：一个 draft 模型元数据修复，提高了后续 draft 位置的接受率（#38311），以及支持 draft prefill 的 CUDA graph（#37588）。

除了 draft 模型之外，MiniMax M2.5 还获得了针对性的 kernel 融合工作。添加了一个自定义的 QK-norm 融合（fuse_minimax_qk_norm）来处理模型非标准的注意力归一化，其中 Q 和 K 的方差在应用每通道缩放之前，会在 tensor-parallel rank 之间进行缩减（#37045）。

Image 5: 图 4：跨四个 tensor-parallel rank 的 fuse_minimax_qk_norm 剖析。

图 4：跨四个 tensor-parallel rank 的 fuse_minimax_qk_norm 剖析。

通过此融合以及标准的 fuse_norm_quant、fuse_act_quant 和 fuse_gemm_comms 通道，上限实验达到了：

并发度 1 时 326 tok/s（TP=4，EAGLE3 + 3 个推测 token，合成 100% 接受率）。

这代表了在拥有完美 draft 模型时服务堆栈的上限，将融合工作的贡献与 draft 模型质量分离开来。

Image 6: 图 5：MiniMax-M2.5，各提供商的输出速度。

图 5：MiniMax-M2.5，各提供商的输出速度。

来源：Artificial Analysis，2026 年 5 月。

Qwen 3.5 397B：线性注意力与融合缺口

Qwen 3.5 在其注意力模块中使用了带有非标准归一化的线性注意力。这两种架构选择都与 vLLM 的标准融合基础设施产生了尴尬的交互：投影后的卷积路径是线性注意力模型独有的，并且归一化变体与 vLLM 现有 allreduce_rms 融合所寻找的模式不匹配。

代价在 profiler 中显现出来。由于错过了 allreduce_rms 融合，大约一半的 decode 时间花费在未融合的跨设备 reduce 上——这正是融合应该消除的那种开销。模型运行正常，数值正确，但引擎执行的内存往返次数超出了必要。

四项工作填补了这一缺口：

修复现有的 allreduce_rms 融合通道，使其能够识别 Qwen 的归一化变体——在 batch > 1 时，TPOT 提升约 5%。
对 qk-norm + rope 路径进行 kernel 级优化。
针对 Qwen 线性注意力架构特有的后卷积路径进行 kernel 融合（#37813）。
双流执行，重叠独立计算分支。

Image 7: 图 6：vLLM 中的 Qwen 3.5 397B kernel 融合工作。

图 6：vLLM 中的 Qwen 3.5 397B kernel 融合工作。

结合 TP=8 和 expert parallelism，生产部署达到了：

并发度 1 时 163 tok/s（TEP=8，后卷积融合）
并发度 256 时 7.33 req/s，高于 6.69 req/s 的基线（+10%）

这项工作已合并到 vLLM 主线中。

Image 8: 图 7：Qwen 3.5 397B，各提供商的输出速度。

图 7：Qwen 3.5 397B，各提供商的输出速度。

来源：Artificial Analysis，2026 年 5 月。

这对 vLLM 意味着什么

这些结果背后的优化——DSv3.2 注意力路径融合、MiniMax EAGLE3 draft 模型训练方案以及 Qwen 3.5 融合——要么已经上游合并到 vLLM 主线中，要么正在上游合并的路上。在当前 vLLM 上运行这些模型的团队将获得相同的加速效果。

开源成为默认选择

从历史上看，最快的推理堆栈一直是专有的——由超大规模云厂商、模型实验室和芯片供应商为其自身基础设施构建和调优。开源替代方案虽然广泛可用，但在生产性能上往往落后。

这种情况在推理层已不复存在。vLLM 现在在其支持的模型上位居 Artificial Analysis 排行榜榜首。在这些基准测试中，世界上最快的推理是开源的。现代 AI 底层的基础设施正在追随这一趋势。

致谢

感谢 Inferact、DigitalOcean、NVIDIA、Red Hat 以及 vLLM 开源社区对这项计划的贡献。

译自 vllm-blog · 录于二〇二六年五月十二日