一声棒喝,本不立文字
偏要著録,已是二义

Artificial Analysis · 评测

近期开源权重模型发布

Recent open weights model launches

二〇二六年五月十二日 · 英文原文

上周,Moonshot AI的Kimi K2.6 (Reasoning)和小米的MiMo V2.5 Pro (Reasoning)在Artificial Analysis Intelligence Index上以54分并列领先开源权重模型,DeepSeek V4 Pro (Reasoning, Max Effort)得52分。三者均为万亿参数以上MoE架构,采用宽松许可证。与闭源模型GPT-5.5(60分)差距为3-6分。在HLE(人类最后考试)中得分34-36%,低于GPT-5.5的44%;在TerminalBench Hard(智能体编码)中得分43-46%,低于GPT-5.5的61%。全知性方面,DeepSeek V4 Pro得-10分,Kimi K2.6为+6分,GPT-5.5为+20分。

近期开源权重模型发布

K

所有文章 2026年4月30日

近期开源权重模型发布

上周,三大领先开源权重模型均已发布。开源权重模型与闭源模型同步取得进展,与领先闭源模型 GPT-5.5 在 Artificial Analysis Intelligence Index 上的差距为 6 分

Moonshot AI 的 Kimi K2.6 (Reasoning) 和小米的 MiMo V2.5 Pro (Reasoning) 在 Artificial Analysis Intelligence Index 上以 54 分并列成为领先的开源权重模型,DeepSeek 的 DeepSeek V4 Pro (Reasoning, Max Effort) 得分为 52。这使得最佳开源权重模型与领先闭源模型之间的差距在 3-6 分之间:OpenAI 的 GPT-5.5 (xhigh) 得分为 60,Google 的 Gemini 3.1 Pro Preview 和 AnthropicAI 的 Claude Opus 4.7 (Adaptive Reasoning, Max Effort) 得分为 57。

作为背景: 就在一年前,得分最高的开源权重模型是 DeepSeek V3 0324,在 Intelligence Index 上得分为 22,比得分最高的闭源模型 Claude 3.7 Sonnet (Reasoning) 的 35 分低约 13 分。

关键要点:

➤ 最智能的三个开源权重模型均为万亿参数以上的 MoE 架构,并采用宽松许可证。 Kimi K2.6 (Reasoning) 拥有 1T 总参数 / 32B 激活参数,上下文窗口为 256K;MiMo V2.5 Pro (Reasoning) 拥有 1T 总参数 / 42B 激活参数,上下文窗口为 1M;DeepSeek V4 Pro (Reasoning, Max Effort) 拥有 1.6T 总参数 / 49B 激活参数,上下文窗口为 1M。

➤ 在最难的推理和智能体编码评估中,与闭源模型的差距仍然很大。 在 HLE(人类最后考试)中,三大开源权重模型得分为 34-36%,而 GPT-5.5 (xhigh) 为 44%,Gemini 3.1 Pro Preview 为 45%。在 CritPt(研究级物理)中,它们得分为 4-12%,而 GPT-5.5 (xhigh) 为 27%。在 TerminalBench Hard(智能体编码与终端使用)中,它们得分为 43-46%,而 GPT-5.5 (xhigh) 为 61%,Gemini 3.1 Pro Preview 为 54%。

➤ 全知性(知识 + 幻觉)方面与闭源模型存在较大差距,DeepSeek V4 Pro (Reasoning, Max Effort) 的幻觉程度显著高于其开源权重同行。 DeepSeek V4 Pro (Reasoning, Max Effort) 得分为 -10,MiMo V2.5 Pro (Reasoning) 为 +4,Kimi K2.6 (Reasoning) 为 +6。相比之下,GPT-5.5 (xhigh) 得分为 +20,Claude Opus 4.7 (Adaptive Reasoning, Max Effort) 为 +26,Gemini 3.1 Pro Preview 为 +33。

Image 1

领先的开源权重模型来自中国 AI 实验室。 Intelligence Index 上前 10 个开源权重模型均来自中国 AI 实验室。源自中国以外实验室的最高分模型是 Gemma 4 31B (Reasoning) 和 NVIDIA Nemotron 3 Super (Reasoning)。

Image 2

开源权重在智能度与价格的帕累托前沿占据主导地位。 帕累托前沿上的 13 个模型中有 9 个是开源权重模型(包括 MiniMax M2.7)。Kimi K2.6 (Reasoning) 和 MiMo V2.5 Pro (Reasoning) 均位于帕累托前沿上,DeepSeek V4 Pro (Reasoning, Max Effort) 略低于该前沿。这三个模型提供的智能度与领先闭源模型相当,但价格仅为后者的二分之一到六分之一。

Image 3

Kimi K2.6 (Reasoning)、MiMo V2.5 Pro (Reasoning)、DeepSeek V4 Pro (Reasoning, Max Effort) 以及领先闭源模型在 Intelligence Index 上的完整结果如下:

Image 4

阅读最新文章

Image 5 ### OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct OpenBMB 发布新模型 2026年5月11日Image 6 ### xAI 发布 Grok 4.3,提升智能体性能并降低定价 Grok 4.3 的基准测试与分析 2026年4月30日Image 7 ### DeepSeek 凭借 V4 Pro 和 V4 Flash 重返领先开源权重模型行列 DeepSeek 发布 DeepSeek V4 Pro 和 V4 Flash,重返领先开源权重模型行列,V4 Pro 在 Artificial Analysis Intelligence Index 上仅次于 Kimi K2.6 2026年4月24日

Artificial Analysis

订阅我们的通讯

邮箱地址 订阅

Artificial Analysis

探索

公司

XLinkedIn小红书Discord

© 2026 Artificial Analysis

使用条款隐私政策

译自 Artificial Analysis · 评测 · 录于 二〇二六年五月十二日