Interconnects · Nathan Lambert

最新开放制品(#21):开放模型大爆发!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。附 CAISI V4 评估。

Latest open artifacts (#21): Open model bonanza! Gemma 4, DeepSeek V4, Kimi K2.6, MiMo 2.5, GLM-5.1 & others. On CAISI's V4 assessment.

二〇二六年五月十六日 · 英文原文

本月,DeepSeek、小米、谷歌、Moonshot AI、Poolside、Qwen、LiquidAI、Arcee AI 及 ZAI Org 等机构密集发布新模型。CAISI 基于 IRT 评估认为开放模型与前沿模型差距扩大,DeepSeek V4 在 CTF-Archive-Diamond、PortBench 及 ARC-AGI-2 上表现不佳。小米发布 MiMo-V2.5-Pro(Apache 2.0),谷歌推出 Gemma 4 系列(含 26B-A4B MoE),Moonshot AI 发布 Kimi-K2.6,Poolside 发布 Laguna-XS.2(33B-A3B),DeepSeek 发布 V4-Flash(284B-13B)及 Pro(1.6T-A49B)。Qwen 发布 Qwen3.6-35B-A3B,LiquidAI 发布 LFM2.5-350M(28T token 训练),Arcee AI 发布 Trinity-Large-Thinking,ZAI Org 发布 GLM-5.1。

本月异常繁忙,所有开放前沿实验室(包括 DeepSeek)都发布了新模型。后者促使人工智能标准与创新中心(CAISI)进行了一项评估,该中心过去曾评估过开放模型及其风险。他们的结论是,开放模型落后于美国前沿模型,且差距随时间推移不断扩大:在报告中,他们基于项目反应理论(Item Response Theory)计算了 Elo 分数,该理论常用于比较不同模型,即使这些模型是在不同的基准测试集上进行的测试。对于 V4,CAISI 使用了九个不同的基准测试:巨大的 Elo 差异源于 DeepSeek V4 在 CTF-Archive-Diamond(仅使用基准测试的子集运行,并通过 IRT 对 V4 进行外推)、PortBench(CAISI 私有基准测试)和 ARC-AGI-2(使用与公开排行榜不同的评分方法)上的糟糕表现。这些基准测试中的差异对整体 Elo 产生了巨大影响,这可能会加剧能力上的差异。当使用 Epoch AI 的 ECI(它也在一组不同的基准测试上使用 IRT)时,我们看到自 R1 以来,差距大致保持在 3-7 个月之间:开放与封闭模型在 ECI 上的差距(来自 https://mcnair.center/china/)。然而,CAISI 和 ECI 都描绘了一幅不完整的图景,因为两者都使用标准化(且简单)的设置来比较模型的能力。更具体地说:编码任务是通过访问 bash 和使用固定 token 预算的 for 循环来评估的,而不是使用像 Claude Code 或 OpenCode 这样的工具(模型正是在这些工具上训练的!)。这些设置导致基准测试声称将应用程序移植到另一种语言目前是不可能的,而 Bun 已经从 Zig 移植到了 Rust,涉及 100 万行代码变更¹。因此,我们认为,对开放和封闭模型进行前沿比较,还需要更好地激发所有模型的能力,这意味着要使用首选的工具以及针对特定模型的提示词。本节主要由 Florian 撰写。Interconnects 内部一个有趣的动态是,Florian 更相信开放前沿模型在真实性能上接近封闭替代品。Nathan 也认为基准测试不完美,但他认为封闭模型领先更多。我们将在未来的内容中继续探讨这一点。分享我们的精选

小米的 MiMo-V2.5-Pro:Avid Artifacts 的读者知道,小米已经开发开放模型一段时间了;其首次亮相正好是一年前。其发布的进展显著,2.5 Pro(在 Apache 2.0 下发布)在基准测试和实际使用中都与其他旗舰模型(如 Kimi K2.6 和 GLM-5.1)并驾齐驱。

谷歌的 gemma-4-26B-A4B-it(完整 Interconnects 文章在此):Gemma 系列期待已久的更新,提供多种尺寸:4B、9B 和 31B 密集模型,以及 26B-A4B MoE。更重要的是,通过 Gemma 4,谷歌决定使用 Apache 2.0 作为其许可证,这消除了围绕自定义许可证解释的不确定性和法律挑战。

Moonshot AI 的 Kimi-K2.6:Kimi 系列的更新,全面提供更强的性能,使其再次成为目前最好的开放模型之一。他们还专注于长周期性能,表明开放模型能够运行数小时以完成任务或优化性能。鉴于大家都在构建类似自动研究(autoresearch)的系统,看到开放模型迎头赶上非常重要。

Poolside 的 Laguna-XS.2:Poolside AI 发布了其首个面向公众的编码模型,包括开放权重的 XS.2。其尺寸(33B-A3B)使其在本地使用中具有吸引力,性能与该尺寸范围内的其他模型相当。随附的博客文章值得一读,其中深入探讨了编码评估中的奖励黑客(reward hacking)问题。

DeepSeek 的 DeepSeek-V4-Flash:DeepSeek 终于发布了 V3 系列的继任者,该系列已持续更新数月。它提供两种尺寸:Pro,一个 1.6T-A49B MoE;以及 Flash,一个 284B-13B 模型。根据其他人的经验,后者似乎是真正的明星,因为其性能相对强劲,而 Pro 相对于其尺寸似乎表现不足。技术报告非常详细,包括用于实现更好、更便宜的长上下文性能的架构变化。

模型

通用

Qwen 的 Qwen3.6-35B-A3B:Qwen 3.5 系列的更新,针对最广泛使用的尺寸之一。

LiquidAI 的 LFM2.5-350M:使用 28T token 训练 350M 参数,这个模型可能是目前过度训练最严重的模型。

Arcee AI 的 Trinity-Large-Thinking:Trinity 的推理版本,是西方最好的开放模型之一。它一度在 OpenRouter 排行榜上名列前茅,并可以为诸如 OpenClaw 之类的智能体应用提供支持。

ZAI Org 的 GLM-5.1:GLM-5 的更新,全面提高了分数。此次更新的重点是长周期任务。了解更多

译自 Interconnects · Nathan Lambert · 录于 二〇二六年五月十六日