sglang v0.5.11

二〇二六年六月六日 · 英文原文

摘要

SGLang v0.5.11 发布，默认 CUDA 版本升级至 13.0，PyTorch 升级至 2.11。默认启用 Speculative Decoding V2 以降低 CPU 开销。PD 分离场景下新增 Decode Radix Cache。新增对 Gemma 4、GLM-5.1、Qwen3.6 等模型的支持。DFLASH Speculative Decoding 扩展至多个后端及 AMD ROCm。引入社区贡献的 FA3 Kernels。DeepSeek-V3 和 Kimi-K2 获得 LoRA 支持。Context Parallel 增强，支持 All-reduce + RMSNorm 融合及独立调优。新增 FlashInfer CuteDSL MoE Runner 后端。

亮点

CUDA 13 + Torch 2.11：默认 CUDA 版本升级至 13.0，覆盖 SGLang、sgl-kernel 和 Docker 镜像，PyTorch 从 2.9 升级至 2.11——现代化构建矩阵并解锁更新的 kernel：#21247, #24162, #24183, #23593（跟踪 issue #21498）
默认启用 Speculative Decoding V2：Spec V2（通过重叠调度隐藏 CPU 开销）现为默认选项，显著降低 EAGLE/MTP/DFLASH 路径的每步 CPU 成本：#21062
PD 分离下的 Decode Radix Cache：在 prefill/decode 分离场景下，decode 侧前缀缓存现已生效，恢复 radix-cache 命中率并节省长共享前缀在分离部署中的 TTFT：#19746
Day-0 / 新模型支持：Gemma 4、GLM-5.1、Qwen3.6、MiMo-V2.5 / V2.5-Pro、Ling-2.6-Flash、Mistral Medium 3.5 和 Kimi-K2.6——附带调优部署命令的 cookbook 配方。参见 docs.sglang.io/cookbook：#21952, #23808, #23811, #23851, #23947, #23486, #23394
DFLASH Speculative Decoding：来自 kernel 社区的新高吞吐量 spec-decode kernel，已扩展至多个模型后端和 AMD ROCm：#22077, #22358, #22342, #23553
来自 Kernel 社区的 FA3 Kernels：社区贡献的即插即用 FA3 kernel，与 FA4 集成，为用户提供易于维护的高性能选项：#20796
DeepSeek-V3 和 Kimi-K2 的 LoRA 支持：LoRA 现可用于最大的基于 MLA 的 MoE 模型，包括 DeepSeek-V3 MLA LoRA 和 Kimi K2——支持对前沿规模模型进行基于 adapter 的微调：#22323, #22381
Context Parallel (CP) 增强：CP 下的 All-reduce + RMSNorm 融合实现端到端加速，同时支持 moe_dp_size = 1 搭配任意 attention_cp_size，使 MoE 和 attention 并行度可独立调优：#21249, #22003
FlashInfer CuteDSL MoE Runner 后端：为标准 FP4 MoE 路径新增专用 FlashInferCuteDslMoE 层，提供额外的高性能融合 MoE 选项：#21339

[余略，详见 https://github.com/sgl-project/sglang/releases/tag/v0.5.11]

译自 GitHub · 版本发布 · 录于二〇二六年六月六日