@karminski3 400 TPS！实测智谱 GLM-5.1 以10倍速狂飙

@karminski3 400 TPS！实测智谱 GLM-5.1 以10倍速狂飙智谱刚刚发布了 glm-5.1-highspeed! 赶紧拿脚本测了一下, …

二〇二六年五月二十二日 · 英文原文

摘要

智谱发布GLM-5.1高速推理模型，实测输出速度达300+ tps，首token延迟约1s，相比GLM-5.1的35 tps和9s延迟提升约10倍。该模型单次激活40B参数，按bf16精度需80GB显存，300 tps下需约24TB/s显存带宽，相当于8卡H100 SXM张量并行。智谱与TileRT团队合作，从底层重构推理链路，将整个流程编译为常驻GPU的大kernel，减少CPU调度与数据搬运，单卡内计算、IO、通信拆解为tile级任务，多卡分工（如GPU 0负责Sparse Indexer，GPU 1–7运行MLA注意力主干），中间结果尽量在寄存器、共享内存、L2 cache中传递。

400 TPS！实测智谱 GLM-5.1 以10倍速狂飙

智谱刚刚发布了 glm-5.1-highspeed！赶紧拿脚本测了一下，输出速度能干到 300 tps+，首 token 延迟稳定在 1s。

这个数据猛到什么程度……同样的脚本我测了下 glm-5.1 的接口，输出速度只有 35 tps，首 token 延迟干到了 9s。基本是10倍速提升。

使用 glm-5.1 编程或者养龙虾/爱马仕的同学可以直接搞套餐开这个新模型了。能做到直接吐字不用等。

GLM-5.1 单次激活 40B，按照 bf16 精度计算，即使不考虑 kvcache 也要 80GB 的显存，那么达到 35 tps，这就是 80x35=2.8TB/s 的显存带宽。而如果拉升到 300 tps，那就是 80x300=24TB/s 的显存带宽。

如果按照 H100 SXM: 3.35 TB/s 计算，之前单卡的带宽就能达到了，现在需要8卡的张量并行才可以（当然张量并行也能提升请求并行度）。

结果官方发布的技术文档更炸裂，他们跟 TileRT 团队合作，从底层把推理链路重做，直接把显卡性能榨干了！

简单说，传统推理像流水线工厂：CPU 当调度器，一层层发指令给 GPU，算完一层把结果写回显存，再读出来算下一层，中间还要不停同步。大量时间其实耗在这些"调度 + 搬运"上，而不是纯计算。

TileRT 的思路是反着来的：编译阶段就把整个推理流程编排好，变成一个常驻 GPU 的大 kernel，推理启动后基本只 launch 一次，后面 GPU 自己跑。

单卡里面像计算、IO、通信都拆成更小的 tile 级任务；中间结果尽量不走大显存，能在寄存器、共享内存、L2 cache 里直传就直传。

多卡则进行分工，比如 GPU 0 专门干 Sparse Indexer，GPU 1–7 跑 MLA 注意力主干。（另外还有很多优化细节，大家可以看官方发布的技术文档）

上面这些全都不用 CPU 再深度参与了，所以提升了大量的性能。

so，正在使用 GLM-5.1 的同学抓紧切模型！

#glm51 #glm51highspeed #智谱 #GLM

译自 X · 研究者一手 · 录于二〇二六年五月二十二日