vllm v0.20.2
vllm v0.20.2
摘要
vLLM v0.20.2 发布,包含来自 6 位贡献者的 6 次提交。修复了 DeepSeek V4 的 sparse attention 在 Hopper 上重新启用 persistent topk 路径并修复 MTP=1 挂起问题(#41665),以及 KV cache 管理器中的分配错误(#41282)。修复了 gpt-oss MXFP4 在 torch.compile 下通过 `moe_forward` fake op 传递 `hidden_dim_unpadded` 的问题(#42002)。移除了 Qwen3-VL 在高负载下可能失败的无效 deepstack 边界检查(#40932)。
vLLM v0.20.2
亮点
本版本包含来自 6 位贡献者的 6 次提交(0 位新贡献者)!
这是一个小型补丁版本,修复了 DeepSeek V4、gpt-oss 和 Qwen3-VL 的 bug。
Bug 修复
- DeepSeek V4 sparse attention:在 Hopper 上重新启用 persistent topk 路径,并确保 memset kernel 在 CUDA graph 捕获时运行,不受
max_seq_len影响,修复了 DeepSeek V4 上 MTP=1 的挂起问题(#41665,回滚 #41605)。 - DeepSeek V4 KV cache:修复了 V1 引擎 KV cache 管理器中“无法分配 KV 块”的错误(#41282)。
- gpt-oss MXFP4 + torch.compile:通过
moe_forwardfake op 传递hidden_dim_unpadded,使 MXFP4 在 v0.20.x 上能在torch.compile下正常工作(#42002,向后移植 #41646)。 - Qwen3-VL:移除了一个在高负载下可能失败的无效 deepstack 边界检查(#40932)。
贡献者
@ywang96, @zyongye, @stecasta, @wzhao18, @Isotr0py, @khluu
译自 GitHub · 版本发布 · 录于 二〇二六年六月六日