vllm v0.22.0

二〇二六年六月六日 · 英文原文

摘要

vLLM v0.22.0 发布，包含来自 230 位贡献者的 459 次提交。DeepSeek V4 模型被重组至 `vllm/models/deepseek_v4/` 包，新增 NVFP4 融合 MoE、CUDA graph 及 MTP 推测解码支持。Model Runner V2 新增 oracle 为 Qwen3 稠密模型默认选择 MRv2，并支持睡眠模式权重重载与共享 KV-cache 层。实验性 Rust 前端集成落地，包含 DP Supervisor。批处理不变推理获得 Cutlass FP8 支持，实现 28.9% 端到端延迟改善。新增多层 KV cache 卸载框架，支持 CPU 内存外卸载。新架构支持 MiniCPM-V 4.6、InternS2 Preview、OpenVLA 等。

亮点

本版本包含来自 230 位贡献者（其中 63 位是新贡献者）的 459 次提交。

DeepSeek V4 成熟度提升：DeepSeek V4 在本周期经历了一次重大的加固处理——模型被重组到专门的 vllm/models/deepseek_v4/ 包中（#43004, #43039, #43073, #43077, #43149），获得了 NVFP4 融合 MoE 支持（#42209）、完整 + 分段 CUDA graph（#42604）以及 MTP 推测解码（#43385）。大量融合 kernel（MegaMoE、mhc、Q-norm、indexer、sparse MLA）和 ROCm 对等性修复与精度修复一同落地（#42810, #43710）。
Model Runner V2 向默认推进：MRv2 新增了一个 oracle，可为 Qwen3 稠密模型默认选择 MRv2（#39337）、睡眠模式权重重载（#42673）、update_config（#42783）以及共享 KV-cache 层（#35045），此外还有大量正确性修复。现在当存在 KV connector 时，它会自动回退到 MRv1（#42955）。
实验性 Rust 前端：一个新的 Rust 前端集成已落地（#40848），其实现已移入代码树（#43283），并包含一个用于数据并行服务的 DP Supervisor（#40841）。
批处理不变性，速度更快：批处理不变推理获得了 Cutlass FP8 支持，实现了 28.9% 的端到端延迟改善（#40408）、SM80 上的编译模式支持（#42456）以及 NVFP4 Cutlass 线性路径（#39912）。
多层 KV cache 卸载：一个新的多层 KV cache 卸载框架（#40020），包含 Python 文件系统辅助层（#41735）、DSv4 支持（#43142）以及 Mooncake 磁盘卸载（#42689），将卸载能力扩展到 CPU 内存之外。

模型支持

新架构：MiniCPM-V 4.6（#41254）、InternS2 Preview（#42705）、OpenVLA（#42654）、MolmoWeb hf_overrides 文档（#42163）；EXAONE-4.5 与 Transformers 更新对齐（#42246）。
推测解码：自定义可调用 proposer 后端（#39487）、后归一化 EAGLE-3 speculator（#42764）、peagle speculator（#41826）、extract_hidden_states 中的混合注意力模型（#39949）、NemotronH 的非 MTP 推测（#43130）、MRv2 中的共享 MTP 权重（#42538）。
DeepSeek V4：NVFP4 MoE（#42209）、CUDA graph 完整/分段（#42604）、MTP（#43385）、模型包重构（#43004, #43039, #43073, #43077）、稀疏 MLA + compressor 重构（#43149, #43710）、MegaMoE 输入预处理 kernel 迁移（#43632）。
Qwen3.5/3.6：GDN 输出投影展平（#42311）、GatedDeltaNet Marlin TP≥2 修复（#36329）、ViT 完整 CUDA graph（#42151）、Qwen3.5/MTP/Qwen3-VL 的 runai-streamer 权重加载（#42521, #42716）、KDA chunk-prefill exp2 语义（#43195）。
Gemma3/Gemma4：混合分辨率图像协同批处理崩溃修复（#42217）、MoE 路由闭包修复（#42250）、工具解析器浮点损坏修复（#42128）、图像/视频的批处理视觉编码器（#43169）、多 GPU 修复（#42630）。
Kimi-K2.5：量化时跳过 vision-tower 数据类型转换（#42869）、mm_projector 数据类型修复（#42081）。
Cohere：启用 Cohere MoE（#43143）、Cohere vision 的流水线并行（#42819）。
工具调用：Apertus 工具解析器（#41154）、Qwen3Coder anyOf/oneOf/$ref 解析重新落地（#37831）、跨 MiniMax-M2 / DeepSeek-V3.2 / Seed-OSS 解析器共享 coerce_to_schema_type（#43006, #43019, #43140）。
ViT CUDA graph：Qwen2-VL（#41736）、Step3-VL 编码器（#42224）、Qwen3.5（#42151）、Qwen2.5-VL 视觉注意力的 FlashInfer 元数据（#42787）。

引擎核心

Model Runner V2：Qwen3-稠密-默认 oracle（#39337）、睡眠模式重载权重（#42673）、update_config（#42783）、共享 KV-cache 层（#35045）、FP32 gumbel 采样（#41775）、带 connector 时自动回退到 MRv1（#42955）、logprob_token_ids 正确性（#43125, #41761）、prompt-logprobs 大小修复（#42778）。
KV 卸载：多层框架（#40020）、Python 文件系统辅助层（#41735）、DSv4 支持（#43142）、层卸载后续（#42529）、偏好 HND 布局（#41928）、reset_cache()（#41956）、按请求跟踪（#42507）、存储延迟修复（#41945）。
MoE 重构：ExpertMapManager（#41046）、专家移至 experts/（#42334）、`RoutedE…

[余略，详见 https://github.com/vllm-project/vllm/releases/tag/v0.22.0]

译自 GitHub · 版本发布 · 录于二〇二六年六月六日