@rasbt 旗舰开放权重模型面世的日子总是让人兴奋。刚刚在读…
@rasbt Flagship open-weight release days are always exciting. Was just reading …
Gemma 4 发布含 31B 与 MoE 27B(4B active)变体;31B 架构较 Gemma 3 27B 基本延续,采用 Pre-norm/Post-norm、5:1 hybrid attention 与 GQA,benchmark 较 Gemma 3 提升,接近 Qwen3.5 27B,并改用 Apache 2.0 license。
旗舰级 open-weight 发布日总是很有意思。我刚读完 Gemma 4 的报告、config 和代码,下面是我的一些要点:
从架构上看,除了 multi-model 支持之外,Gemma 4(31B)相比 Gemma 3(27B)基本没有变化。
Gemma 4 保持了相对独特的 Pre-norm 和 Post-norm 设置,也仍然比较经典:采用 5:1 的 hybrid attention 机制,将 sliding-window(local)层和 full-attention(global)层结合起来。attention 机制本身也是经典的 Grouped Query Attention(GQA)。
但不要因为架构没有变化就被误导。从 benchmark 来看,Gemma 4 相比 Gemma 3 有很大提升。这很可能来自训练集和训练 recipe。
有意思的是,在 AI Arena Leaderboard 上,Gemma 4(31B)的排名与体量大得多的 Qwen3.5-397B-A17B 模型相近。但正如我在模型评估文章中讨论过的,arena 分数有一些问题,因为它们可以被针对性优化,并且偏向人类的(风格)偏好。
如果看一些其他常见 benchmark,也就是我在下面绘制的这些,可以看到它确实相对 Gemma 3 有非常明显的提升,并且与 Qwen3.5 27B 大致持平。
注意,Gemma 4 还有一个 Mixture-of-Experts(MoE)变体,规模略小(27B,其中 4 billion 参数处于 active 状态)。相比 Gemma 4(31B),它的 benchmark 只稍差一些。
我在下面的图中省略了 MoE 架构,因为图已经非常拥挤,但你可以在我的 LLM Architecture Gallery 中找到它。
总的来说,这是一次不错且很强的模型发布,也是本地使用的有力候选。另外,一个不应被低估的方面是,(看起来)该模型现在采用标准的 Apache 2.0 open-source license 发布,相比自定义的 Gemma 3 license,使用条款友好得多。
这里是 gallery 条目的链接,里面有更多细节、链接、对比等: https://t.co/qq9ACl3xxi
这里把两个 Gemma 4 变体并排放在一起,方便参考。 https://t.co/VNszgFYXLR https://t.co/PYa7DdmQUX