sglang v0.5.12

二〇二六年六月六日 · 英文原文

摘要

SGLang v0.5.12 发布，主要更新包括：完整支持 DeepSeek-V4 推理路径，涵盖张量/专家/上下文/数据并行注意力、Nvidia B300/B200/H200/H100/GB200/GB300 及 AMD MI35X 硬件、预填充-解码分离、HiSparse KV cache 卸载至 CPU、DeepGemm 与 FlashMLA 内核；新增 TokenSpeed MLA attention 后端（Blackwell，FP8 KV cache）、DSv3.2/GLM-5 FP4 低延迟性能优化、HiCache + UnifiedRadixTree 框架、推测解码 V2 成熟及 CUDA 13 DeepEP 迁移；支持 DeepSeek V4、Intern-S2-Preview、MiniCPM-V 4.6、Laguna-XS.2、Ring-2.6-1T 和 Gemma 4 MTP 等新模型。

亮点

DeepSeek V4 支持：DeepSeek-V4 的完整推理路径（#23882），包括：

第0天功能：#23882
- 并行策略：张量并行/专家并行/上下文并行/数据并行注意力
- 硬件：Nvidia B300/B200/H200/H100/GB200/GB300, AMD MI35X
- 预填充-解码分离
- HiSparse 用于将非活跃 KV cache 卸载至 CPU 内存
- 推理解析器和工具调用解析器
- 面向 DeepSeek V4 的 DeepGemm 和 FlashMLA 内核，包括 MegaMoE
第0天后的新增：
- 统一 Radix Tree [UnifiedTree] 下 DeepSeek V4 的 HiCache：#24691
- W4A4 MegaMoE 内核——速度更快，精度损失可忽略：#25052
- Hopper 上的 Marlin/FlashInfer W4A8 MoE 内核：#24816 #24986
- 更快的 V2 融合压缩内核：#24890
- H100/H20 上的 TP16 支持：#24949
- 融合 SiLU+clamp+FP8 量化内核：#24897
- 优化的 MHC + DeepGemm 流水线（融合 norm、融合 hc_head）：#24775
- DSv4 的非标准聊天模板支持：#23915
- 多 detokenizer 支持：#24944
- DeepSeek-V4 的流水线并行 + PD 支持：#24700
- 适用于所有 Nvidia GPU 的统一 Docker 标签 lmsysorg/sglang:v0.5.12
详情请参阅 LMSYS 博客和 DeepSeek-V4 cookbook。
TokenSpeed MLA attention 后端（Blackwell，FP8 KV cache）：新的 MLA 预填充/解码内核作为 SM100 上的 attention 后端集成，支持 FP8 KV cache 以实现低延迟 MLA 服务：#24925
DSv3.2 / GLM-5 FP4 低延迟性能：在 DSv3.2 / GLM-5 内核上启用 PDL，DeepSeek V3.2 indexer GEMM 使用 torch.mm，并重新引入 Cute-DSL FP4 密集 GEMM——显著削减 FP4 路径上的低延迟开销：#23965, #23856, #23590, #25311
新模型支持：DeepSeek V4 #23882, Intern-S2-Preview #24875, MiniCPM-V 4.6 #24855, Laguna-XS.2 #24204, Ring-2.6-1T #25360, 和 Gemma 4 MTP #24436——附带调优部署命令的 cookbook 配方。参见 docs.sglang.io/cookbook
HiCache + UnifiedRadixTree：HiCache 框架对 UnifiedRadixTree（含 SWA）的支持，DeepSeek V4 的 HiCache，通过 Mooncake store 的 SSD 卸载，以及级联驱逐、墓碑重放和部分匹配路径的稳定性修复：#23316, #23391, #24691, #24277, #24943, #24972, #25068, #25277
推测解码 V2 成熟：自适应推测 V2，EAGLE-3 SWA + 更新的草稿模型，Kimi K2.5 EAGLE-3 MLA，Gemma 3/4 + EAGLE-3，以及跨草稿扩展路径的广泛命名/形状处理重构：#23336, #24663, #24664, #24826, #23976, #24859
CUDA 13 DeepEP 迁移：Gateway DeepEP 源码从社区 fork 切换到 deepseek-ai/DeepEP@hybrid-ep，使 DeepEP 在 CUDA 13 默认环境下干净地构建和运行；FlashInfer 固定在 0.6.11.post1，同时修复了 gpt-oss triton-kernel 问题：#25113

[余略，详见 https://github.com/sgl-project/sglang/releases/tag/v0.5.12]

译自 GitHub · 版本发布 · 录于二〇二六年六月六日