X · 研究者一手

@karminski3 Google 刚推出 Gemma 4 系列草稿专用模型，31B Dense 搭配草稿模型速度提升 3 倍，代价仅仅…

@karminski3 Google 刚刚发布了 Gemma 4系列模型的草稿专用模型! 31B Dense 搭配草稿模型速度竟然能提升3倍! 付出的代价仅仅…

二〇二六年五月八日 · 英文原文

摘要

Google 发布 Gemma 4 专用 draft model，用于 speculative decoding；31B Dense 提速约 3 倍、额外显存约 1GB，26B 提速 1.5x，E4B 提速 3.1x。另有 AI 电竞教练 Harness Agent 结合 Doubao-Seed-2.0-Lite，在字节跳动 Demo 中连续 25 小时分析 CS2 对局视频。

Google 刚刚发布了 Gemma 4 系列模型的专用 draft model！31B Dense 搭配 draft model，速度竟然能提升 3 倍！代价仅仅是多花 1G 显存！

另外，Gemma4-26B 也能提升 1.5x 速度，Gemma4-E4B 更是能提升 3.1x 速度。我之前给大家做过 Gemma 4 speculative decoding（推测性解码）的教程，当时官方还没有专用 draft model，所以我演示的是 gemma-4-31B-it-UD-Q4_K_XL 作为主模型，然后使用 gemma-4-E2B-it-UD-Q4_K_XL 作为 draft model，速度可以提升 1.23x，draft 接受率在 62% 左右。

这次能直接翻三倍，原因很简单：之前用的 gemma-4-E2B-it-UD-Q4_K_XL 即使已经是量化模型了，大小也有 3GB 左右；而这次的 gemma-4-31B-it-assistant 即使是原始精度，也只有 939 MB！而且是专门为 speculative decoding 优化的，接受率也会更高。所以提速自然就明显了。

代价也只是显存中再多加载这个模型即可，大概 1GB 显存开销。

现在压力来到了 Qwen 这边，建议 Qwen 赶紧推出 Qwen3.6-27B-assistant。再不推出，我的显卡可是要红温了，我天天 cue 你们嗷！

#gemma4 #qwen #gemma4assistant #推测性解码 #投机解码

完了！我的整活被官方相中了！

我搞了个 AI 电竞教练的 Harness Agent 框架，把 CS2 录屏视频拖进去之后，就能分析走位、身法、对枪、预瞄、投掷物、经济等各种数据，然后还能给出建议和训练方向。

结果被字节跳动相中了，于是结合 Doubao-Seed-2.0-Lite 整了个大活：连续运行 25 小时，不间断分析对局视频，总结玩家的帝王干拉是否到位（x

这次 Doubao-Seed-2.0-Lite 宣发 Demo 视频里的那个 AI 电竞教练，就是这个 Demo 哈。

以及，具体的整活视频还在制作中～大家稍安勿躁，稍后给大家带来全部整活细节～

#seed20lite #doubao #doubaoseed #字节跳动

译自 X · 研究者一手 · 录于二〇二六年五月八日