GitHub · 版本发布

sglang v0.5.12

sglang v0.5.12

二〇二六年六月六日 · 英文原文

SGLang v0.5.12 发布,主要更新包括:完整支持 DeepSeek-V4 推理路径,涵盖张量/专家/上下文/数据并行注意力、Nvidia B300/B200/H200/H100/GB200/GB300 及 AMD MI35X 硬件、预填充-解码分离、HiSparse KV cache 卸载至 CPU、DeepGemm 与 FlashMLA 内核;新增 TokenSpeed MLA attention 后端(Blackwell,FP8 KV cache)、DSv3.2/GLM-5 FP4 低延迟性能优化、HiCache + UnifiedRadixTree 框架、推测解码 V2 成熟及 CUDA 13 DeepEP 迁移;支持 DeepSeek V4、Intern-S2-Preview、MiniCPM-V 4.6、Laguna-XS.2、Ring-2.6-1T 和 Gemma 4 MTP 等新模型。

亮点

[余略,详见 https://github.com/sgl-project/sglang/releases/tag/v0.5.12]

译自 GitHub · 版本发布 · 录于 二〇二六年六月六日