vllm v0.21.0

二〇二六年六月六日 · 英文原文

摘要

vLLM 发布 v0.21.0 版本，包含 202 位贡献者的 367 次提交。正式弃用 transformers v4，要求迁移至 v5；构建需 C++20 编译器。KV Offload 集成混合内存分配器（HMA），推测解码支持思考预算。新增 TOKENSPEED_MLA 后端用于 Blackwell GPU 上的 DeepSeek-R1/Kimi-K25。新架构支持包括 MiMo-V2.5、Laguna XS.2、Moondream3 等。性能优化包括默认启用 FlashInfer top-k/top-p 采样器、AllPool.forward 提速 51%。

亮点

本次发布包含来自 202 位贡献者的 367 次提交（其中 49 位新贡献者）！

Transformers v4 已弃用：本次发布正式弃用了 transformers v4 的支持（#40389）。用户应迁移至 transformers v5。
C++20 构建要求：vLLM 现在需要兼容 C++20 的编译器，以便与 PyTorch 兼容（#40380）。这是一个破坏性构建变更。
KV Offload + 混合内存分配器 (HMA)：KV offloading 子系统现已与混合内存分配器集成，包括调度器端的滑动窗口组支持和完整的 HMA 启用（#41228, #41445, #39571）。
带思考预算的推测解码：推测解码现在遵循推理/思考预算，使得推理模型能够正确进行推测解码（#34668）。
Blackwell 上的 TOKENSPEED_MLA 后端：一个新的 TOKENSPEED_MLA attention 后端可用于 Blackwell GPU 上的 DeepSeek-R1/Kimi-K25 预填充 + 解码（#41778）。

模型支持

新架构：MiMo-V2.5 (#40967)、Laguna XS.2 (#41129, #41880)、Moondream3 (#32325)、Qianfan-OCR (#40136)、Cohere MoE (#40817)、Cohere Eagle (#42078)。
推测解码：Mistral 的 EAGLE (#41024)、Gemma4 MTP (#41745)、MiMo-V2.5 的 MTP (#41905)、Cohere Eagle (#42078)。
DeepSeek V4：AMD/ROCm 支持 (#40871)、流水线并行 (#41694)、max 推理努力 (#40982)、分离式服务修复 (#41957)。
工具调用：Cohere 推理与工具解析器 (#40422)、LFM2/2.5 工具解析器 (#39243)。
Gemma3/Gemma4：hidden_act 变体支持 (#40588)、流水线并行修复 (#40786)、MoE 修复 (#41206, #41574, #41401)、工具解析器崩溃修复 (#41991, #42188)。
模型运行器 V2：Qwen3.5/Mamba 混合模型支持 (#35520)、logprob_token_ids 支持 (#40559)。
CUDA graph：Qwen2.5-VL 的 ViT CUDA graph 支持 (#40830)。
兼容性：为 Transformers v5 提供供应商 HCXVisionConfig (#38447)、旧版 rope_type 检查点支持 (#41734)。

引擎核心

KV offloading + HMA：调度器端滑动窗口组 (#41228)、完整 HMA 启用 (#41445)、多连接器 HMA (#39571)、按作业存储完成 (#39186)、OffloadingConnector 中的 DCP/PCP 支持 (#41549)、用于分布式 KV offloading 的 MooncakeStoreConnector (#40900)。
推测解码：思考预算支持 (#34668)、独立起草器 attention 后端选择 (#39930)、带警告的多模态模型支持 (#41752)、消除每步分配 (#41043)。
模型运行器 V2：拒绝采样接受率修复 (#40651)、在起草预填充前跳过元数据重建 (#40410)、在起草解码步骤间重建元数据 (#41162)、Qwen3.5/Mamba 混合支持 (#35520)。
路由：用设备缓存和异步 D2H 流水线替换路由重放 (#39917)。
Ray：默认启用 RayExecutorV2 (#41421)、修复 DP > 1 时的 actor 名称冲突 (#40398)。
稳定性：两阶段暂停以防止调度器死锁 (#39366)、线程安全的 HF tokenizer 包装器 (#41181)、通过模型加载时的 max_split_size_mb 防止 OOM (#41268)。
DSA 模型的 IndexCache 支持 (#37735)。

硬件与性能

NVIDIA Blackwell：DSR1/Kimi-K25 的 TOKENSPEED_MLA 后端 (#41778)、更快的每 token FP8 组量化打包内核 (#41326)、NVIDIA Thor/SM110 上的 FP8 (#39712)、非兼容尺寸的 CUTLASS 缩放矩阵乘法 (#41868)。
性能：默认启用 FlashInfer top-k/top-p 采样器 (#40376)、ViT 的 FP8 FlashInfer attention (#38065)、TurboQuant 共享反量化缓冲区 (#40941)、AllPool.forward 提速 51% (#41163)、消除池化 (#41433) 和 attention (#41434) 中的 GPU<->CPU 同步、numpy 零拷贝嵌入序列化 (#41681)、纯文本时跳过多模态处理器 (#41246)、FlashInfer FP8 异步 TP 融合 (#39505)、AsyncTP 的 NVFP4 all-gather GEMM 融合 (#41882)、重新启用 DP/PP 的 allreduce+RMS 融合 (#41458)、通过 torch.mm 实现 DeepSeek bf16→fp32 (#41300)、稀疏后端的持久化 MLA (#41990)、可配置的 safetensors 检查点预取 (#41499)、…

[其余内容省略，详见 https://github.com/vllm-project/vllm/releases/tag/v0.21.0]

译自 GitHub · 版本发布 · 录于二〇二六年六月六日