GitHub · 版本发布

vllm v0.20.2

vllm v0.20.2

二〇二六年六月六日 · 英文原文

vLLM v0.20.2 发布,包含来自 6 位贡献者的 6 次提交。修复了 DeepSeek V4 的 sparse attention 在 Hopper 上重新启用 persistent topk 路径并修复 MTP=1 挂起问题(#41665),以及 KV cache 管理器中的分配错误(#41282)。修复了 gpt-oss MXFP4 在 torch.compile 下通过 `moe_forward` fake op 传递 `hidden_dim_unpadded` 的问题(#42002)。移除了 Qwen3-VL 在高负载下可能失败的无效 deepstack 边界检查(#40932)。

vLLM v0.20.2

亮点

本版本包含来自 6 位贡献者的 6 次提交(0 位新贡献者)!

这是一个小型补丁版本,修复了 DeepSeek V4、gpt-oss 和 Qwen3-VL 的 bug。

Bug 修复

贡献者

@ywang96, @zyongye, @stecasta, @wzhao18, @Isotr0py, @khluu

译自 GitHub · 版本发布 · 录于 二〇二六年六月六日