GitHub · 版本发布

sglang v0.5.11

sglang v0.5.11

二〇二六年六月六日 · 英文原文

SGLang v0.5.11 发布,默认 CUDA 版本升级至 13.0,PyTorch 升级至 2.11。默认启用 Speculative Decoding V2 以降低 CPU 开销。PD 分离场景下新增 Decode Radix Cache。新增对 Gemma 4、GLM-5.1、Qwen3.6 等模型的支持。DFLASH Speculative Decoding 扩展至多个后端及 AMD ROCm。引入社区贡献的 FA3 Kernels。DeepSeek-V3 和 Kimi-K2 获得 LoRA 支持。Context Parallel 增强,支持 All-reduce + RMSNorm 融合及独立调优。新增 FlashInfer CuteDSL MoE Runner 后端。

亮点

[余略,详见 https://github.com/sgl-project/sglang/releases/tag/v0.5.11]

译自 GitHub · 版本发布 · 录于 二〇二六年六月六日