vllm v0.20.2

二〇二六年六月六日 · 英文原文

摘要

vLLM v0.20.2 发布，包含来自 6 位贡献者的 6 次提交。修复了 DeepSeek V4 的 sparse attention 在 Hopper 上重新启用 persistent topk 路径并修复 MTP=1 挂起问题（#41665），以及 KV cache 管理器中的分配错误（#41282）。修复了 gpt-oss MXFP4 在 torch.compile 下通过 `moe_forward` fake op 传递 `hidden_dim_unpadded` 的问题（#42002）。移除了 Qwen3-VL 在高负载下可能失败的无效 deepstack 边界检查（#40932）。

vLLM v0.20.2

亮点

本版本包含来自 6 位贡献者的 6 次提交（0 位新贡献者）！

这是一个小型补丁版本，修复了 DeepSeek V4、gpt-oss 和 Qwen3-VL 的 bug。

Bug 修复

DeepSeek V4 sparse attention：在 Hopper 上重新启用 persistent topk 路径，并确保 memset kernel 在 CUDA graph 捕获时运行，不受 max_seq_len 影响，修复了 DeepSeek V4 上 MTP=1 的挂起问题（#41665，回滚 #41605）。
DeepSeek V4 KV cache：修复了 V1 引擎 KV cache 管理器中“无法分配 KV 块”的错误（#41282）。
gpt-oss MXFP4 + torch.compile：通过 moe_forward fake op 传递 hidden_dim_unpadded，使 MXFP4 在 v0.20.x 上能在 torch.compile 下正常工作（#42002，向后移植 #41646）。
Qwen3-VL：移除了一个在高负载下可能失败的无效 deepstack 边界检查（#40932）。

贡献者

@ywang96, @zyongye, @stecasta, @wzhao18, @Isotr0py, @khluu

译自 GitHub · 版本发布 · 录于二〇二六年六月六日