sglang v0.5.12
sglang v0.5.12
SGLang v0.5.12 发布,主要更新包括:完整支持 DeepSeek-V4 推理路径,涵盖张量/专家/上下文/数据并行注意力、Nvidia B300/B200/H200/H100/GB200/GB300 及 AMD MI35X 硬件、预填充-解码分离、HiSparse KV cache 卸载至 CPU、DeepGemm 与 FlashMLA 内核;新增 TokenSpeed MLA attention 后端(Blackwell,FP8 KV cache)、DSv3.2/GLM-5 FP4 低延迟性能优化、HiCache + UnifiedRadixTree 框架、推测解码 V2 成熟及 CUDA 13 DeepEP 迁移;支持 DeepSeek V4、Intern-S2-Preview、MiniCPM-V 4.6、Laguna-XS.2、Ring-2.6-1T 和 Gemma 4 MTP 等新模型。
亮点
DeepSeek V4 支持:DeepSeek-V4 的完整推理路径(#23882),包括:
第0天功能:#23882
- 并行策略:张量并行/专家并行/上下文并行/数据并行注意力
- 硬件:Nvidia B300/B200/H200/H100/GB200/GB300, AMD MI35X
- 预填充-解码分离
- HiSparse 用于将非活跃 KV cache 卸载至 CPU 内存
- 推理解析器和工具调用解析器
- 面向 DeepSeek V4 的 DeepGemm 和 FlashMLA 内核,包括 MegaMoE
第0天后的新增:
- 统一 Radix Tree [UnifiedTree] 下 DeepSeek V4 的 HiCache:#24691
- W4A4 MegaMoE 内核——速度更快,精度损失可忽略:#25052
- Hopper 上的 Marlin/FlashInfer W4A8 MoE 内核:#24816 #24986
- 更快的 V2 融合压缩内核:#24890
- H100/H20 上的 TP16 支持:#24949
- 融合 SiLU+clamp+FP8 量化内核:#24897
- 优化的 MHC + DeepGemm 流水线(融合 norm、融合 hc_head):#24775
- DSv4 的非标准聊天模板支持:#23915
- 多 detokenizer 支持:#24944
- DeepSeek-V4 的流水线并行 + PD 支持:#24700
- 适用于所有 Nvidia GPU 的统一 Docker 标签
lmsysorg/sglang:v0.5.12
详情请参阅 LMSYS 博客 和 DeepSeek-V4 cookbook。
TokenSpeed MLA attention 后端(Blackwell,FP8 KV cache):新的 MLA 预填充/解码内核作为 SM100 上的 attention 后端集成,支持 FP8 KV cache 以实现低延迟 MLA 服务:#24925
DSv3.2 / GLM-5 FP4 低延迟性能:在 DSv3.2 / GLM-5 内核上启用 PDL,DeepSeek V3.2 indexer GEMM 使用
torch.mm,并重新引入 Cute-DSL FP4 密集 GEMM——显著削减 FP4 路径上的低延迟开销:#23965, #23856, #23590, #25311新模型支持:DeepSeek V4 #23882, Intern-S2-Preview #24875, MiniCPM-V 4.6 #24855, Laguna-XS.2 #24204, Ring-2.6-1T #25360, 和 Gemma 4 MTP #24436——附带调优部署命令的 cookbook 配方。参见 docs.sglang.io/cookbook
HiCache + UnifiedRadixTree:HiCache 框架对 UnifiedRadixTree(含 SWA)的支持,DeepSeek V4 的 HiCache,通过 Mooncake store 的 SSD 卸载,以及级联驱逐、墓碑重放和部分匹配路径的稳定性修复:#23316, #23391, #24691, #24277, #24943, #24972, #25068, #25277
推测解码 V2 成熟:自适应推测 V2,EAGLE-3 SWA + 更新的草稿模型,Kimi K2.5 EAGLE-3 MLA,Gemma 3/4 + EAGLE-3,以及跨草稿扩展路径的广泛命名/形状处理重构:#23336, #24663, #24664, #24826, #23976, #24859
CUDA 13 DeepEP 迁移:Gateway DeepEP 源码从社区 fork 切换到
deepseek-ai/DeepEP@hybrid-ep,使 DeepEP 在 CUDA 13 默认环境下干净地构建和运行;FlashInfer 固定在 0.6.11.post1,同时修复了 gpt-oss triton-kernel 问题:#25113
[余略,详见 https://github.com/sgl-project/sglang/releases/tag/v0.5.12]