X · 研究者一手

@rasbt 旗舰开放权重模型面世的日子总是让人兴奋。刚刚在读…

@rasbt Flagship open-weight release days are always exciting. Was just reading …

二〇二六年五月八日 · 英文原文

摘要

Gemma 4 发布含 31B 与 MoE 27B（4B active）变体；31B 架构较 Gemma 3 27B 基本延续，采用 Pre-norm/Post-norm、5:1 hybrid attention 与 GQA，benchmark 较 Gemma 3 提升，接近 Qwen3.5 27B，并改用 Apache 2.0 license。

旗舰级 open-weight 发布日总是很有意思。我刚读完 Gemma 4 的报告、config 和代码，下面是我的一些要点：

从架构上看，除了 multi-model 支持之外，Gemma 4（31B）相比 Gemma 3（27B）基本没有变化。

Gemma 4 保持了相对独特的 Pre-norm 和 Post-norm 设置，也仍然比较经典：采用 5:1 的 hybrid attention 机制，将 sliding-window（local）层和 full-attention（global）层结合起来。attention 机制本身也是经典的 Grouped Query Attention（GQA）。

但不要因为架构没有变化就被误导。从 benchmark 来看，Gemma 4 相比 Gemma 3 有很大提升。这很可能来自训练集和训练 recipe。

有意思的是，在 AI Arena Leaderboard 上，Gemma 4（31B）的排名与体量大得多的 Qwen3.5-397B-A17B 模型相近。但正如我在模型评估文章中讨论过的，arena 分数有一些问题，因为它们可以被针对性优化，并且偏向人类的（风格）偏好。

如果看一些其他常见 benchmark，也就是我在下面绘制的这些，可以看到它确实相对 Gemma 3 有非常明显的提升，并且与 Qwen3.5 27B 大致持平。

注意，Gemma 4 还有一个 Mixture-of-Experts（MoE）变体，规模略小（27B，其中 4 billion 参数处于 active 状态）。相比 Gemma 4（31B），它的 benchmark 只稍差一些。

我在下面的图中省略了 MoE 架构，因为图已经非常拥挤，但你可以在我的 LLM Architecture Gallery 中找到它。

总的来说，这是一次不错且很强的模型发布，也是本地使用的有力候选。另外，一个不应被低估的方面是，（看起来）该模型现在采用标准的 Apache 2.0 open-source license 发布，相比自定义的 Gemma 3 license，使用条款友好得多。

这里是 gallery 条目的链接，里面有更多细节、链接、对比等： https://t.co/qq9ACl3xxi

这里把两个 Gemma 4 变体并排放在一起，方便参考。 https://t.co/VNszgFYXLR https://t.co/PYa7DdmQUX

译自 X · 研究者一手 · 录于二〇二六年五月八日