@karminski3 Google 刚推出 Gemma 4 系列草稿专用模型,31B Dense 搭配草稿模型速度提升 3 倍,代价仅仅…
@karminski3 Google 刚刚发布了 Gemma 4系列模型的草稿专用模型! 31B Dense 搭配草稿模型速度竟然能提升3倍! 付出的代价仅仅…
Google 发布 Gemma 4 专用 draft model,用于 speculative decoding;31B Dense 提速约 3 倍、额外显存约 1GB,26B 提速 1.5x,E4B 提速 3.1x。另有 AI 电竞教练 Harness Agent 结合 Doubao-Seed-2.0-Lite,在字节跳动 Demo 中连续 25 小时分析 CS2 对局视频。
Google 刚刚发布了 Gemma 4 系列模型的专用 draft model!31B Dense 搭配 draft model,速度竟然能提升 3 倍!代价仅仅是多花 1G 显存!
另外,Gemma4-26B 也能提升 1.5x 速度,Gemma4-E4B 更是能提升 3.1x 速度。我之前给大家做过 Gemma 4 speculative decoding(推测性解码)的教程,当时官方还没有专用 draft model,所以我演示的是 gemma-4-31B-it-UD-Q4_K_XL 作为主模型,然后使用 gemma-4-E2B-it-UD-Q4_K_XL 作为 draft model,速度可以提升 1.23x,draft 接受率在 62% 左右。
这次能直接翻三倍,原因很简单:之前用的 gemma-4-E2B-it-UD-Q4_K_XL 即使已经是量化模型了,大小也有 3GB 左右;而这次的 gemma-4-31B-it-assistant 即使是原始精度,也只有 939 MB!而且是专门为 speculative decoding 优化的,接受率也会更高。所以提速自然就明显了。
代价也只是显存中再多加载这个模型即可,大概 1GB 显存开销。
现在压力来到了 Qwen 这边,建议 Qwen 赶紧推出 Qwen3.6-27B-assistant。再不推出,我的显卡可是要红温了,我天天 cue 你们嗷!
#gemma4 #qwen #gemma4assistant #推测性解码 #投机解码
完了!我的整活被官方相中了!
我搞了个 AI 电竞教练的 Harness Agent 框架,把 CS2 录屏视频拖进去之后,就能分析走位、身法、对枪、预瞄、投掷物、经济等各种数据,然后还能给出建议和训练方向。
结果被字节跳动相中了,于是结合 Doubao-Seed-2.0-Lite 整了个大活:连续运行 25 小时,不间断分析对局视频,总结玩家的帝王干拉是否到位(x
这次 Doubao-Seed-2.0-Lite 宣发 Demo 视频里的那个 AI 电竞教练,就是这个 Demo 哈。
以及,具体的整活视频还在制作中~大家稍安勿躁,稍后给大家带来全部整活细节~
#seed20lite #doubao #doubaoseed #字节跳动