一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@rasbt 旗舰开放权重模型面世的日子总是让人兴奋。刚刚在读…

@rasbt Flagship open-weight release days are always exciting. Was just reading …

二〇二六年五月八日 · 英文原文

Gemma 4 发布含 31B 与 MoE 27B(4B active)变体;31B 架构较 Gemma 3 27B 基本延续,采用 Pre-norm/Post-norm、5:1 hybrid attention 与 GQA,benchmark 较 Gemma 3 提升,接近 Qwen3.5 27B,并改用 Apache 2.0 license。

旗舰级 open-weight 发布日总是很有意思。我刚读完 Gemma 4 的报告、config 和代码,下面是我的一些要点:

从架构上看,除了 multi-model 支持之外,Gemma 4(31B)相比 Gemma 3(27B)基本没有变化。

Gemma 4 保持了相对独特的 Pre-norm 和 Post-norm 设置,也仍然比较经典:采用 5:1 的 hybrid attention 机制,将 sliding-window(local)层和 full-attention(global)层结合起来。attention 机制本身也是经典的 Grouped Query Attention(GQA)。

但不要因为架构没有变化就被误导。从 benchmark 来看,Gemma 4 相比 Gemma 3 有很大提升。这很可能来自训练集和训练 recipe。

有意思的是,在 AI Arena Leaderboard 上,Gemma 4(31B)的排名与体量大得多的 Qwen3.5-397B-A17B 模型相近。但正如我在模型评估文章中讨论过的,arena 分数有一些问题,因为它们可以被针对性优化,并且偏向人类的(风格)偏好。

如果看一些其他常见 benchmark,也就是我在下面绘制的这些,可以看到它确实相对 Gemma 3 有非常明显的提升,并且与 Qwen3.5 27B 大致持平。

注意,Gemma 4 还有一个 Mixture-of-Experts(MoE)变体,规模略小(27B,其中 4 billion 参数处于 active 状态)。相比 Gemma 4(31B),它的 benchmark 只稍差一些。

我在下面的图中省略了 MoE 架构,因为图已经非常拥挤,但你可以在我的 LLM Architecture Gallery 中找到它。

总的来说,这是一次不错且很强的模型发布,也是本地使用的有力候选。另外,一个不应被低估的方面是,(看起来)该模型现在采用标准的 Apache 2.0 open-source license 发布,相比自定义的 Gemma 3 license,使用条款友好得多。

这里是 gallery 条目的链接,里面有更多细节、链接、对比等: https://t.co/qq9ACl3xxi

这里把两个 Gemma 4 变体并排放在一起,方便参考。 https://t.co/VNszgFYXLR https://t.co/PYa7DdmQUX

译自 X · 研究者一手 · 录于 二〇二六年五月八日