GitHub · 版本发布

vllm v0.22.0

vllm v0.22.0

二〇二六年六月六日 · 英文原文

vLLM v0.22.0 发布,包含来自 230 位贡献者的 459 次提交。DeepSeek V4 模型被重组至 `vllm/models/deepseek_v4/` 包,新增 NVFP4 融合 MoE、CUDA graph 及 MTP 推测解码支持。Model Runner V2 新增 oracle 为 Qwen3 稠密模型默认选择 MRv2,并支持睡眠模式权重重载与共享 KV-cache 层。实验性 Rust 前端集成落地,包含 DP Supervisor。批处理不变推理获得 Cutlass FP8 支持,实现 28.9% 端到端延迟改善。新增多层 KV cache 卸载框架,支持 CPU 内存外卸载。新架构支持 MiniCPM-V 4.6、InternS2 Preview、OpenVLA 等。

亮点

本版本包含来自 230 位贡献者(其中 63 位是新贡献者)的 459 次提交。

模型支持

引擎核心

[余略,详见 https://github.com/vllm-project/vllm/releases/tag/v0.22.0]

译自 GitHub · 版本发布 · 录于 二〇二六年六月六日