vllm v0.22.0
vllm v0.22.0
摘要
vLLM v0.22.0 发布,包含来自 230 位贡献者的 459 次提交。DeepSeek V4 模型被重组至 `vllm/models/deepseek_v4/` 包,新增 NVFP4 融合 MoE、CUDA graph 及 MTP 推测解码支持。Model Runner V2 新增 oracle 为 Qwen3 稠密模型默认选择 MRv2,并支持睡眠模式权重重载与共享 KV-cache 层。实验性 Rust 前端集成落地,包含 DP Supervisor。批处理不变推理获得 Cutlass FP8 支持,实现 28.9% 端到端延迟改善。新增多层 KV cache 卸载框架,支持 CPU 内存外卸载。新架构支持 MiniCPM-V 4.6、InternS2 Preview、OpenVLA 等。
亮点
本版本包含来自 230 位贡献者(其中 63 位是新贡献者)的 459 次提交。
- DeepSeek V4 成熟度提升:DeepSeek V4 在本周期经历了一次重大的加固处理——模型被重组到专门的
vllm/models/deepseek_v4/包中(#43004, #43039, #43073, #43077, #43149),获得了 NVFP4 融合 MoE 支持(#42209)、完整 + 分段 CUDA graph(#42604)以及 MTP 推测解码(#43385)。大量融合 kernel(MegaMoE、mhc、Q-norm、indexer、sparse MLA)和 ROCm 对等性修复与精度修复一同落地(#42810, #43710)。 - Model Runner V2 向默认推进:MRv2 新增了一个 oracle,可为 Qwen3 稠密模型默认选择 MRv2(#39337)、睡眠模式权重重载(#42673)、
update_config(#42783)以及共享 KV-cache 层(#35045),此外还有大量正确性修复。现在当存在 KV connector 时,它会自动回退到 MRv1(#42955)。 - 实验性 Rust 前端:一个新的 Rust 前端集成已落地(#40848),其实现已移入代码树(#43283),并包含一个用于数据并行服务的 DP Supervisor(#40841)。
- 批处理不变性,速度更快:批处理不变推理获得了 Cutlass FP8 支持,实现了 28.9% 的端到端延迟改善(#40408)、SM80 上的编译模式支持(#42456)以及 NVFP4 Cutlass 线性路径(#39912)。
- 多层 KV cache 卸载:一个新的多层 KV cache 卸载框架(#40020),包含 Python 文件系统辅助层(#41735)、DSv4 支持(#43142)以及 Mooncake 磁盘卸载(#42689),将卸载能力扩展到 CPU 内存之外。
模型支持
- 新架构:MiniCPM-V 4.6(#41254)、InternS2 Preview(#42705)、OpenVLA(#42654)、MolmoWeb
hf_overrides文档(#42163);EXAONE-4.5 与 Transformers 更新对齐(#42246)。 - 推测解码:自定义可调用 proposer 后端(#39487)、后归一化 EAGLE-3 speculator(#42764)、peagle speculator(#41826)、
extract_hidden_states中的混合注意力模型(#39949)、NemotronH 的非 MTP 推测(#43130)、MRv2 中的共享 MTP 权重(#42538)。 - DeepSeek V4:NVFP4 MoE(#42209)、CUDA graph 完整/分段(#42604)、MTP(#43385)、模型包重构(#43004, #43039, #43073, #43077)、稀疏 MLA + compressor 重构(#43149, #43710)、MegaMoE 输入预处理 kernel 迁移(#43632)。
- Qwen3.5/3.6:GDN 输出投影展平(#42311)、GatedDeltaNet Marlin TP≥2 修复(#36329)、ViT 完整 CUDA graph(#42151)、Qwen3.5/MTP/Qwen3-VL 的 runai-streamer 权重加载(#42521, #42716)、KDA chunk-prefill exp2 语义(#43195)。
- Gemma3/Gemma4:混合分辨率图像协同批处理崩溃修复(#42217)、MoE 路由闭包修复(#42250)、工具解析器浮点损坏修复(#42128)、图像/视频的批处理视觉编码器(#43169)、多 GPU 修复(#42630)。
- Kimi-K2.5:量化时跳过 vision-tower 数据类型转换(#42869)、
mm_projector数据类型修复(#42081)。 - Cohere:启用 Cohere MoE(#43143)、Cohere vision 的流水线并行(#42819)。
- 工具调用:Apertus 工具解析器(#41154)、Qwen3Coder
anyOf/oneOf/$ref解析重新落地(#37831)、跨 MiniMax-M2 / DeepSeek-V3.2 / Seed-OSS 解析器共享coerce_to_schema_type(#43006, #43019, #43140)。 - ViT CUDA graph:Qwen2-VL(#41736)、Step3-VL 编码器(#42224)、Qwen3.5(#42151)、Qwen2.5-VL 视觉注意力的 FlashInfer 元数据(#42787)。
引擎核心
- Model Runner V2:Qwen3-稠密-默认 oracle(#39337)、睡眠模式重载权重(#42673)、
update_config(#42783)、共享 KV-cache 层(#35045)、FP32 gumbel 采样(#41775)、带 connector 时自动回退到 MRv1(#42955)、logprob_token_ids正确性(#43125, #41761)、prompt-logprobs 大小修复(#42778)。 - KV 卸载:多层框架(#40020)、Python 文件系统辅助层(#41735)、DSv4 支持(#43142)、层卸载后续(#42529)、偏好 HND 布局(#41928)、
reset_cache()(#41956)、按请求跟踪(#42507)、存储延迟修复(#41945)。 - MoE 重构:
ExpertMapManager(#41046)、专家移至experts/(#42334)、`RoutedE…
[余略,详见 https://github.com/vllm-project/vllm/releases/tag/v0.22.0]
译自 GitHub · 版本发布 · 录于 二〇二六年六月六日