GitHub · 版本发布

vllm v0.21.0

vllm v0.21.0

二〇二六年六月六日 · 英文原文

vLLM 发布 v0.21.0 版本,包含 202 位贡献者的 367 次提交。正式弃用 transformers v4,要求迁移至 v5;构建需 C++20 编译器。KV Offload 集成混合内存分配器(HMA),推测解码支持思考预算。新增 TOKENSPEED_MLA 后端用于 Blackwell GPU 上的 DeepSeek-R1/Kimi-K25。新架构支持包括 MiMo-V2.5、Laguna XS.2、Moondream3 等。性能优化包括默认启用 FlashInfer top-k/top-p 采样器、AllPool.forward 提速 51%。

亮点

本次发布包含来自 202 位贡献者的 367 次提交(其中 49 位新贡献者)!

模型支持

引擎核心

硬件与性能

[其余内容省略,详见 https://github.com/vllm-project/vllm/releases/tag/v0.21.0]

译自 GitHub · 版本发布 · 录于 二〇二六年六月六日