sglang v0.5.11
sglang v0.5.11
SGLang v0.5.11 发布,默认 CUDA 版本升级至 13.0,PyTorch 升级至 2.11。默认启用 Speculative Decoding V2 以降低 CPU 开销。PD 分离场景下新增 Decode Radix Cache。新增对 Gemma 4、GLM-5.1、Qwen3.6 等模型的支持。DFLASH Speculative Decoding 扩展至多个后端及 AMD ROCm。引入社区贡献的 FA3 Kernels。DeepSeek-V3 和 Kimi-K2 获得 LoRA 支持。Context Parallel 增强,支持 All-reduce + RMSNorm 融合及独立调优。新增 FlashInfer CuteDSL MoE Runner 后端。
亮点
CUDA 13 + Torch 2.11:默认 CUDA 版本升级至 13.0,覆盖 SGLang、sgl-kernel 和 Docker 镜像,PyTorch 从 2.9 升级至 2.11——现代化构建矩阵并解锁更新的 kernel:#21247, #24162, #24183, #23593(跟踪 issue #21498)
默认启用 Speculative Decoding V2:Spec V2(通过重叠调度隐藏 CPU 开销)现为默认选项,显著降低 EAGLE/MTP/DFLASH 路径的每步 CPU 成本:#21062
PD 分离下的 Decode Radix Cache:在 prefill/decode 分离场景下,decode 侧前缀缓存现已生效,恢复 radix-cache 命中率并节省长共享前缀在分离部署中的 TTFT:#19746
Day-0 / 新模型支持:Gemma 4、GLM-5.1、Qwen3.6、MiMo-V2.5 / V2.5-Pro、Ling-2.6-Flash、Mistral Medium 3.5 和 Kimi-K2.6——附带调优部署命令的 cookbook 配方。参见 docs.sglang.io/cookbook:#21952, #23808, #23811, #23851, #23947, #23486, #23394
DFLASH Speculative Decoding:来自 kernel 社区的新高吞吐量 spec-decode kernel,已扩展至多个模型后端和 AMD ROCm:#22077, #22358, #22342, #23553
来自 Kernel 社区的 FA3 Kernels:社区贡献的即插即用 FA3 kernel,与 FA4 集成,为用户提供易于维护的高性能选项:#20796
DeepSeek-V3 和 Kimi-K2 的 LoRA 支持:LoRA 现可用于最大的基于 MLA 的 MoE 模型,包括 DeepSeek-V3 MLA LoRA 和 Kimi K2——支持对前沿规模模型进行基于 adapter 的微调:#22323, #22381
Context Parallel (CP) 增强:CP 下的 All-reduce + RMSNorm 融合实现端到端加速,同时支持
moe_dp_size = 1搭配任意attention_cp_size,使 MoE 和 attention 并行度可独立调优:#21249, #22003FlashInfer CuteDSL MoE Runner 后端:为标准 FP4 MoE 路径新增专用
FlashInferCuteDslMoE层,提供额外的高性能融合 MoE 选项:#21339
[余略,详见 https://github.com/sgl-project/sglang/releases/tag/v0.5.11]