一声棒喝,本不立文字
偏要著録,已是二义

Artificial Analysis · 评测

DeepSeek 携 V4 Pro 与 V4 Flash 重返领先开源权重模型行列

DeepSeek is back among the leading open weights models with V4 Pro and V4 Flash

二〇二六年五月十二日 · 英文原文

DeepSeek 发布 V4 Pro 和 V4 Flash,采用新架构,V4 Pro 总参数量 1.6T/激活参数 49B,V4 Flash 总参数量 284B/激活参数 13B,均为混合思考/非思考模型。V4 Pro 在 Artificial Analysis Intelligence Index 得分为 52,较 V3.2 提升 10 分,成为仅次于 Kimi K2.6 的第二大开源权重推理模型。V4 Pro 在 agentic 任务基准 GDPval-AA 上以 1554 分领先开源权重模型。V4 Pro 和 Flash 的幻觉率分别达 94% 和 96%。模型支持 100 万 token 上下文窗口,仅文本输入输出,采用 MIT 许可证。

DeepSeek 凭借 DeepSeek V4 Pro 和 V4 Flash 重回领先开源权重模型行列,V4 Pro 在 Artificial Analysis Intelligence Index 上仅次于 Kimi K2.6

DeepSeek 发布了 DeepSeek V4 Pro 和 V4 Flash。V4 是 DeepSeek 自 V3 以来的首个新架构。V4 引入了新架构,其中 V4 Pro 总参数量 1.6T / 激活参数 49B,V4 Flash 总参数量 284B / 激活参数 13B,这是 DeepSeek 首次推出双层级产品线:Pro 定位为最大能力,Flash 定位为更快、更低成本的推理。两个模型均为混合思考/非思考模型。我们测试了 Max Effort 和 High Effort 下的推理变体。

一年前,DeepSeek R1 和 R1 0528 是 Intelligence Index 上领先的开源权重推理模型。此后,其他几个开源权重实验室发布了强大的推理模型,而 V4 Pro 现在以 Artificial Analysis Intelligence Index 上排名第二的开源权重推理模型身份登场,仅次于 Kimi K2.6(54)。V4 Pro 和 V4 Flash 目前仍仅支持文本输入和输出。

关键要点:

Intelligence Index 大幅提升 10 分: DeepSeek V4 Pro (Max) 在 Artificial Analysis Intelligence Index 上得分为 52,较 V3.2 的 42 分有所提升,使其成为仅次于 Kimi K2.6 的第二大开源权重推理模型。不过,如果 MiMo-V2.5-Pro 的权重像小米其他模型一样发布,那么它将降至第三位。V4 Flash (Max) 得分为 47,低于 V4 Pro,但高于 DeepSeek V3.2。这使其处于前沿模型之后,与 Claude Sonnet 4.6 (max) 的智能水平相当。

在开源权重模型中领先的 Agent 性能: DeepSeek V4 Pro (Max) 在 agentic 真实工作任务上领先于开源权重模型,在 GDPval-AA 上得分为 1554。这使其领先于 Kimi K2.6 (1484)、GLM-5.1 (1535)、GLM-5 (1402) 和 MiniMax-M2.7 (1514)。

知识提升但幻觉率增加: DeepSeek V4 Pro (Max) 在 AA-Omniscience 上得分为 -10,较 V3.2(推理,-21)提升了 11 分,主要得益于更高的准确率。V4 Flash (Max) 得分为 -23,与 V3.2 大致持平。V4 Pro 和 V4 Flash 的幻觉率分别高达 94% 和 96%,这意味着当它们不知道答案时,几乎总是会给出回应。

Flash 明显落后于 Pro,但在其规模下定位良好: DeepSeek V4 Flash (Max) 在 Artificial Analysis Intelligence Index 上得分为 47,远低于 V4 Pro。然而,其参数量为 284B,小得多,并且在智能 vs 规模的前沿上定位良好,与 MiniMax-M2.7 相邻。

比前沿模型便宜,但比其他开源权重模型贵,且相比 DeepSeek V3.2 大幅上涨: DeepSeek V4 Pro 运行 Artificial Analysis Intelligence Index 的成本为 1,071 美元。这使其比 Claude Opus 4.7(4,811 美元)便宜 4 倍以上,但仍比其他几个开源权重模型贵,包括 Kimi K2.6(948 美元)、GLM-5.1(544 美元)、DeepSeek V3.2(71 美元)和 gpt-oss-120B(67 美元)。DeepSeek V4 Flash 则便宜得多,为 113 美元。

高 Token 使用量: DeepSeek V4 Pro 运行 Artificial Analysis Intelligence Index 使用了 1.9 亿输出 token,使其成为测试中 token 最密集的模型之一。DeepSeek V4 Flash 更高,使用了 2.4 亿输出 token。这种高 token 使用量有助于解释为什么尽管每 token 定价较低,V4 Pro 的总成本相对于其他开源权重模型仍然较高。

关键模型细节:

上下文窗口: 100 万 token,是 V3.2 的 128K 上下文窗口的 8 倍扩展

模态: 仅文本输入和输出,与 V3.2 一致

规模: DeepSeek V4 Pro 总参数量 1.6T / 激活参数 49B;V4 Flash 总参数量 284B / 激活参数 13B

许可证: MIT

可用性: 可在 DeepSeek 的官方 API 上使用;我们预计许多第三方提供商将托管这些模型

定价: DeepSeek V4 Pro 每百万输入/输出 token 1.74 美元 / 3.48 美元;V4 Flash 每百万输入/输出 token 0.14 美元 / 0.28 美元。缓存命中输入 token 定价:V4 Pro 每百万 token 0.145 美元,V4 Flash 每百万 token 0.028 美元。V4 Pro 比过去的 DeepSeek R1 和 V3 模型贵得多。

Image 1 Intelligence Index 大幅提升 10 分:DeepSeek V4 Pro (Max) 在 Artificial Analysis Intelligence Index 上得分为 52,较 V3.2 的 42 分有所提升,使其成为仅次于 Kimi K2.6 的第二大开源权重推理模型。

Image 2 DeepSeek V4 Pro 大幅扩展了 DeepSeek 的架构,而 V4 Flash 则定位于规模效率:V4 Pro 是 DeepSeek 迄今为止最大的模型,总参数量 1.6T / 激活参数 49B,相比 V3 系列的 671B 总参数量 / 37B 激活参数架构是一个重大升级。V4 Flash 小得多,总参数量 284B / 激活参数 13B,但在智能 vs 规模的前沿上表现强劲,接近 MiniMax-M2.7。

Image 3 DeepSeek V4 Pro 在 GDPval-AA(我们的 agentic 真实工作任务基准)上领先于开源权重模型。V4 Pro (Max) 得分为 1554,领先于 Kimi K2.6 (1484)、GLM-5.1 (1535)、GLM-5 (1402) 和 MiniMax-M2.7 (1514)。V4 Flash(推理,Max Effort)得分为 1388。

Image 4 成本低于前沿模型,但高 token 使用量使成本高于大多数开源权重同行:DeepSeek V4 Pro 运行 Artificial Analysis Intelligence Index 的成本为 1,071 美元,比 Claude Opus 4.7(4,811 美元)便宜 4 倍以上,但高于几个开源权重模型,包括 Kimi K2.6(948 美元)、GLM-5.1(544 美元)、DeepSeek V3.2(71 美元)和 gpt-oss-120B(67 美元)。这部分是由于高输出 token 使用量:V4 Pro 为 1.9 亿 token,V4 Flash 为 2.4 亿 token,尽管 Flash 整体便宜得多,为 113 美元。

Image 5 知识提升但幻觉率增加:DeepSeek V4 Pro (Max) 在 AA-Omniscience 上得分为 -10,较 V3.2(推理,-21)提升了 11 分,主要得益于更高的准确率。V4 Flash (Max) 得分为 -23,与 V3.2 大致持平。V4 Pro 和 V4 Flash 的幻觉率分别高达 94% 和 96%,这意味着当它们不知道答案时,几乎总是会给出回应。

Image 6 DeepSeek V4 Pro 和 V4 Flash 的单项基准测试结果

关于 DeepSeek V4 Pro 和 Flash 的更多基准测试和分析,请访问 Artificial Analysis:https://artificialanalysis.ai/

译自 Artificial Analysis · 评测 · 录于 二〇二六年五月十二日