vllm v0.21.0
vllm v0.21.0
摘要
vLLM 发布 v0.21.0 版本,包含 202 位贡献者的 367 次提交。正式弃用 transformers v4,要求迁移至 v5;构建需 C++20 编译器。KV Offload 集成混合内存分配器(HMA),推测解码支持思考预算。新增 TOKENSPEED_MLA 后端用于 Blackwell GPU 上的 DeepSeek-R1/Kimi-K25。新架构支持包括 MiMo-V2.5、Laguna XS.2、Moondream3 等。性能优化包括默认启用 FlashInfer top-k/top-p 采样器、AllPool.forward 提速 51%。
亮点
本次发布包含来自 202 位贡献者的 367 次提交(其中 49 位新贡献者)!
- Transformers v4 已弃用:本次发布正式弃用了
transformersv4 的支持(#40389)。用户应迁移至transformersv5。 - C++20 构建要求:vLLM 现在需要兼容 C++20 的编译器,以便与 PyTorch 兼容(#40380)。这是一个破坏性构建变更。
- KV Offload + 混合内存分配器 (HMA):KV offloading 子系统现已与混合内存分配器集成,包括调度器端的滑动窗口组支持和完整的 HMA 启用(#41228, #41445, #39571)。
- 带思考预算的推测解码:推测解码现在遵循推理/思考预算,使得推理模型能够正确进行推测解码(#34668)。
- Blackwell 上的 TOKENSPEED_MLA 后端:一个新的 TOKENSPEED_MLA attention 后端可用于 Blackwell GPU 上的 DeepSeek-R1/Kimi-K25 预填充 + 解码(#41778)。
模型支持
- 新架构:MiMo-V2.5 (#40967)、Laguna XS.2 (#41129, #41880)、Moondream3 (#32325)、Qianfan-OCR (#40136)、Cohere MoE (#40817)、Cohere Eagle (#42078)。
- 推测解码:Mistral 的 EAGLE (#41024)、Gemma4 MTP (#41745)、MiMo-V2.5 的 MTP (#41905)、Cohere Eagle (#42078)。
- DeepSeek V4:AMD/ROCm 支持 (#40871)、流水线并行 (#41694)、
max推理努力 (#40982)、分离式服务修复 (#41957)。 - 工具调用:Cohere 推理与工具解析器 (#40422)、LFM2/2.5 工具解析器 (#39243)。
- Gemma3/Gemma4:
hidden_act变体支持 (#40588)、流水线并行修复 (#40786)、MoE 修复 (#41206, #41574, #41401)、工具解析器崩溃修复 (#41991, #42188)。 - 模型运行器 V2:Qwen3.5/Mamba 混合模型支持 (#35520)、
logprob_token_ids支持 (#40559)。 - CUDA graph:Qwen2.5-VL 的 ViT CUDA graph 支持 (#40830)。
- 兼容性:为 Transformers v5 提供供应商 HCXVisionConfig (#38447)、旧版
rope_type检查点支持 (#41734)。
引擎核心
- KV offloading + HMA:调度器端滑动窗口组 (#41228)、完整 HMA 启用 (#41445)、多连接器 HMA (#39571)、按作业存储完成 (#39186)、OffloadingConnector 中的 DCP/PCP 支持 (#41549)、用于分布式 KV offloading 的 MooncakeStoreConnector (#40900)。
- 推测解码:思考预算支持 (#34668)、独立起草器 attention 后端选择 (#39930)、带警告的多模态模型支持 (#41752)、消除每步分配 (#41043)。
- 模型运行器 V2:拒绝采样接受率修复 (#40651)、在起草预填充前跳过元数据重建 (#40410)、在起草解码步骤间重建元数据 (#41162)、Qwen3.5/Mamba 混合支持 (#35520)。
- 路由:用设备缓存和异步 D2H 流水线替换路由重放 (#39917)。
- Ray:默认启用 RayExecutorV2 (#41421)、修复 DP > 1 时的 actor 名称冲突 (#40398)。
- 稳定性:两阶段暂停以防止调度器死锁 (#39366)、线程安全的 HF tokenizer 包装器 (#41181)、通过模型加载时的
max_split_size_mb防止 OOM (#41268)。 - DSA 模型的 IndexCache 支持 (#37735)。
硬件与性能
- NVIDIA Blackwell:DSR1/Kimi-K25 的 TOKENSPEED_MLA 后端 (#41778)、更快的每 token FP8 组量化打包内核 (#41326)、NVIDIA Thor/SM110 上的 FP8 (#39712)、非兼容尺寸的 CUTLASS 缩放矩阵乘法 (#41868)。
- 性能:默认启用 FlashInfer top-k/top-p 采样器 (#40376)、ViT 的 FP8 FlashInfer attention (#38065)、TurboQuant 共享反量化缓冲区 (#40941)、
AllPool.forward提速 51% (#41163)、消除池化 (#41433) 和 attention (#41434) 中的 GPU<->CPU 同步、numpy 零拷贝嵌入序列化 (#41681)、纯文本时跳过多模态处理器 (#41246)、FlashInfer FP8 异步 TP 融合 (#39505)、AsyncTP 的 NVFP4 all-gather GEMM 融合 (#41882)、重新启用 DP/PP 的 allreduce+RMS 融合 (#41458)、通过torch.mm实现 DeepSeek bf16→fp32 (#41300)、稀疏后端的持久化 MLA (#41990)、可配置的 safetensors 检查点预取 (#41499)、…
[其余内容省略,详见 https://github.com/vllm-project/vllm/releases/tag/v0.21.0]
译自 GitHub · 版本发布 · 录于 二〇二六年六月六日