X · 研究者一手

@karminski3 400 TPS!实测智谱 GLM-5.1 以10倍速狂飙

@karminski3 400 TPS!实测智谱 GLM-5.1 以10倍速狂飙 智谱刚刚发布了 glm-5.1-highspeed! 赶紧拿脚本测了一下, …

二〇二六年五月二十二日 · 英文原文

智谱发布GLM-5.1高速推理模型,实测输出速度达300+ tps,首token延迟约1s,相比GLM-5.1的35 tps和9s延迟提升约10倍。该模型单次激活40B参数,按bf16精度需80GB显存,300 tps下需约24TB/s显存带宽,相当于8卡H100 SXM张量并行。智谱与TileRT团队合作,从底层重构推理链路,将整个流程编译为常驻GPU的大kernel,减少CPU调度与数据搬运,单卡内计算、IO、通信拆解为tile级任务,多卡分工(如GPU 0负责Sparse Indexer,GPU 1–7运行MLA注意力主干),中间结果尽量在寄存器、共享内存、L2 cache中传递。

400 TPS!实测智谱 GLM-5.1 以10倍速狂飙

智谱刚刚发布了 glm-5.1-highspeed!赶紧拿脚本测了一下,输出速度能干到 300 tps+,首 token 延迟稳定在 1s。

这个数据猛到什么程度……同样的脚本我测了下 glm-5.1 的接口,输出速度只有 35 tps,首 token 延迟干到了 9s。基本是10倍速提升。

使用 glm-5.1 编程或者养龙虾/爱马仕的同学可以直接搞套餐开这个新模型了。能做到直接吐字不用等。

GLM-5.1 单次激活 40B,按照 bf16 精度计算,即使不考虑 kvcache 也要 80GB 的显存,那么达到 35 tps,这就是 80x35=2.8TB/s 的显存带宽。而如果拉升到 300 tps,那就是 80x300=24TB/s 的显存带宽。

如果按照 H100 SXM: 3.35 TB/s 计算,之前单卡的带宽就能达到了,现在需要8卡的张量并行才可以(当然张量并行也能提升请求并行度)。

结果官方发布的技术文档更炸裂,他们跟 TileRT 团队合作,从底层把推理链路重做,直接把显卡性能榨干了!

简单说,传统推理像流水线工厂:CPU 当调度器,一层层发指令给 GPU,算完一层把结果写回显存,再读出来算下一层,中间还要不停同步。大量时间其实耗在这些"调度 + 搬运"上,而不是纯计算。

TileRT 的思路是反着来的:编译阶段就把整个推理流程编排好,变成一个常驻 GPU 的大 kernel,推理启动后基本只 launch 一次,后面 GPU 自己跑。

单卡里面像计算、IO、通信都拆成更小的 tile 级任务;中间结果尽量不走大显存,能在寄存器、共享内存、L2 cache 里直传就直传。

多卡则进行分工,比如 GPU 0 专门干 Sparse Indexer,GPU 1–7 跑 MLA 注意力主干。(另外还有很多优化细节,大家可以看官方发布的技术文档)

上面这些全都不用 CPU 再深度参与了,所以提升了大量的性能。

so,正在使用 GLM-5.1 的同学抓紧切模型!

#glm51 #glm51highspeed #智谱 #GLM

译自 X · 研究者一手 · 录于 二〇二六年五月二十二日