Artificial Analysis · 评测

近期开源权重模型发布

Recent open weights model launches

二〇二六年五月十二日 · 英文原文

摘要

上周，Moonshot AI的Kimi K2.6 (Reasoning)和小米的MiMo V2.5 Pro (Reasoning)在Artificial Analysis Intelligence Index上以54分并列领先开源权重模型，DeepSeek V4 Pro (Reasoning, Max Effort)得52分。三者均为万亿参数以上MoE架构，采用宽松许可证。与闭源模型GPT-5.5（60分）差距为3-6分。在HLE（人类最后考试）中得分34-36%，低于GPT-5.5的44%；在TerminalBench Hard（智能体编码）中得分43-46%，低于GPT-5.5的61%。全知性方面，DeepSeek V4 Pro得-10分，Kimi K2.6为+6分，GPT-5.5为+20分。

近期开源权重模型发布

模型
编码智能体
语音、图像、视频
硬件
排行榜
关于
AI 趋势
竞技场

所有文章 2026年4月30日

近期开源权重模型发布

上周，三大领先开源权重模型均已发布。开源权重模型与闭源模型同步取得进展，与领先闭源模型 GPT-5.5 在 Artificial Analysis Intelligence Index 上的差距为 6 分

Moonshot AI 的 Kimi K2.6 (Reasoning) 和小米的 MiMo V2.5 Pro (Reasoning) 在 Artificial Analysis Intelligence Index 上以 54 分并列成为领先的开源权重模型，DeepSeek 的 DeepSeek V4 Pro (Reasoning, Max Effort) 得分为 52。这使得最佳开源权重模型与领先闭源模型之间的差距在 3-6 分之间：OpenAI 的 GPT-5.5 (xhigh) 得分为 60，Google 的 Gemini 3.1 Pro Preview 和 AnthropicAI 的 Claude Opus 4.7 (Adaptive Reasoning, Max Effort) 得分为 57。

作为背景： 就在一年前，得分最高的开源权重模型是 DeepSeek V3 0324，在 Intelligence Index 上得分为 22，比得分最高的闭源模型 Claude 3.7 Sonnet (Reasoning) 的 35 分低约 13 分。

关键要点：

➤ 最智能的三个开源权重模型均为万亿参数以上的 MoE 架构，并采用宽松许可证。 Kimi K2.6 (Reasoning) 拥有 1T 总参数 / 32B 激活参数，上下文窗口为 256K；MiMo V2.5 Pro (Reasoning) 拥有 1T 总参数 / 42B 激活参数，上下文窗口为 1M；DeepSeek V4 Pro (Reasoning, Max Effort) 拥有 1.6T 总参数 / 49B 激活参数，上下文窗口为 1M。

➤ 在最难的推理和智能体编码评估中，与闭源模型的差距仍然很大。 在 HLE（人类最后考试）中，三大开源权重模型得分为 34-36%，而 GPT-5.5 (xhigh) 为 44%，Gemini 3.1 Pro Preview 为 45%。在 CritPt（研究级物理）中，它们得分为 4-12%，而 GPT-5.5 (xhigh) 为 27%。在 TerminalBench Hard（智能体编码与终端使用）中，它们得分为 43-46%，而 GPT-5.5 (xhigh) 为 61%，Gemini 3.1 Pro Preview 为 54%。

➤ 全知性（知识 + 幻觉）方面与闭源模型存在较大差距，DeepSeek V4 Pro (Reasoning, Max Effort) 的幻觉程度显著高于其开源权重同行。 DeepSeek V4 Pro (Reasoning, Max Effort) 得分为 -10，MiMo V2.5 Pro (Reasoning) 为 +4，Kimi K2.6 (Reasoning) 为 +6。相比之下，GPT-5.5 (xhigh) 得分为 +20，Claude Opus 4.7 (Adaptive Reasoning, Max Effort) 为 +26，Gemini 3.1 Pro Preview 为 +33。

领先的开源权重模型来自中国 AI 实验室。 Intelligence Index 上前 10 个开源权重模型均来自中国 AI 实验室。源自中国以外实验室的最高分模型是 Gemma 4 31B (Reasoning) 和 NVIDIA Nemotron 3 Super (Reasoning)。

开源权重在智能度与价格的帕累托前沿占据主导地位。 帕累托前沿上的 13 个模型中有 9 个是开源权重模型（包括 MiniMax M2.7）。Kimi K2.6 (Reasoning) 和 MiMo V2.5 Pro (Reasoning) 均位于帕累托前沿上，DeepSeek V4 Pro (Reasoning, Max Effort) 略低于该前沿。这三个模型提供的智能度与领先闭源模型相当，但价格仅为后者的二分之一到六分之一。