Artificial Analysis · 评测

DeepSeek 携 V4 Pro 与 V4 Flash 重返领先开源权重模型行列

DeepSeek is back among the leading open weights models with V4 Pro and V4 Flash

二〇二六年五月十二日 · 英文原文

摘要

DeepSeek 发布 V4 Pro 和 V4 Flash，采用新架构，V4 Pro 总参数量 1.6T/激活参数 49B，V4 Flash 总参数量 284B/激活参数 13B，均为混合思考/非思考模型。V4 Pro 在 Artificial Analysis Intelligence Index 得分为 52，较 V3.2 提升 10 分，成为仅次于 Kimi K2.6 的第二大开源权重推理模型。V4 Pro 在 agentic 任务基准 GDPval-AA 上以 1554 分领先开源权重模型。V4 Pro 和 Flash 的幻觉率分别达 94% 和 96%。模型支持 100 万 token 上下文窗口，仅文本输入输出，采用 MIT 许可证。

DeepSeek 凭借 DeepSeek V4 Pro 和 V4 Flash 重回领先开源权重模型行列，V4 Pro 在 Artificial Analysis Intelligence Index 上仅次于 Kimi K2.6

DeepSeek 发布了 DeepSeek V4 Pro 和 V4 Flash。V4 是 DeepSeek 自 V3 以来的首个新架构。V4 引入了新架构，其中 V4 Pro 总参数量 1.6T / 激活参数 49B，V4 Flash 总参数量 284B / 激活参数 13B，这是 DeepSeek 首次推出双层级产品线：Pro 定位为最大能力，Flash 定位为更快、更低成本的推理。两个模型均为混合思考/非思考模型。我们测试了 Max Effort 和 High Effort 下的推理变体。

一年前，DeepSeek R1 和 R1 0528 是 Intelligence Index 上领先的开源权重推理模型。此后，其他几个开源权重实验室发布了强大的推理模型，而 V4 Pro 现在以 Artificial Analysis Intelligence Index 上排名第二的开源权重推理模型身份登场，仅次于 Kimi K2.6（54）。V4 Pro 和 V4 Flash 目前仍仅支持文本输入和输出。

关键要点：

➤ Intelligence Index 大幅提升 10 分： DeepSeek V4 Pro (Max) 在 Artificial Analysis Intelligence Index 上得分为 52，较 V3.2 的 42 分有所提升，使其成为仅次于 Kimi K2.6 的第二大开源权重推理模型。不过，如果 MiMo-V2.5-Pro 的权重像小米其他模型一样发布，那么它将降至第三位。V4 Flash (Max) 得分为 47，低于 V4 Pro，但高于 DeepSeek V3.2。这使其处于前沿模型之后，与 Claude Sonnet 4.6 (max) 的智能水平相当。

➤ 在开源权重模型中领先的 Agent 性能： DeepSeek V4 Pro (Max) 在 agentic 真实工作任务上领先于开源权重模型，在 GDPval-AA 上得分为 1554。这使其领先于 Kimi K2.6 (1484)、GLM-5.1 (1535)、GLM-5 (1402) 和 MiniMax-M2.7 (1514)。

➤ 知识提升但幻觉率增加： DeepSeek V4 Pro (Max) 在 AA-Omniscience 上得分为 -10，较 V3.2（推理，-21）提升了 11 分，主要得益于更高的准确率。V4 Flash (Max) 得分为 -23，与 V3.2 大致持平。V4 Pro 和 V4 Flash 的幻觉率分别高达 94% 和 96%，这意味着当它们不知道答案时，几乎总是会给出回应。

➤ Flash 明显落后于 Pro，但在其规模下定位良好： DeepSeek V4 Flash (Max) 在 Artificial Analysis Intelligence Index 上得分为 47，远低于 V4 Pro。然而，其参数量为 284B，小得多，并且在智能 vs 规模的前沿上定位良好，与 MiniMax-M2.7 相邻。

➤ 比前沿模型便宜，但比其他开源权重模型贵，且相比 DeepSeek V3.2 大幅上涨： DeepSeek V4 Pro 运行 Artificial Analysis Intelligence Index 的成本为 1,071 美元。这使其比 Claude Opus 4.7（4,811 美元）便宜 4 倍以上，但仍比其他几个开源权重模型贵，包括 Kimi K2.6（948 美元）、GLM-5.1（544 美元）、DeepSeek V3.2（71 美元）和 gpt-oss-120B（67 美元）。DeepSeek V4 Flash 则便宜得多，为 113 美元。

➤ 高 Token 使用量： DeepSeek V4 Pro 运行 Artificial Analysis Intelligence Index 使用了 1.9 亿输出 token，使其成为测试中 token 最密集的模型之一。DeepSeek V4 Flash 更高，使用了 2.4 亿输出 token。这种高 token 使用量有助于解释为什么尽管每 token 定价较低，V4 Pro 的总成本相对于其他开源权重模型仍然较高。

关键模型细节：

➤ 上下文窗口： 100 万 token，是 V3.2 的 128K 上下文窗口的 8 倍扩展

➤ 模态： 仅文本输入和输出，与 V3.2 一致

➤ 规模： DeepSeek V4 Pro 总参数量 1.6T / 激活参数 49B；V4 Flash 总参数量 284B / 激活参数 13B

➤ 许可证： MIT

➤ 可用性： 可在 DeepSeek 的官方 API 上使用；我们预计许多第三方提供商将托管这些模型

➤ 定价： DeepSeek V4 Pro 每百万输入/输出 token 1.74 美元 / 3.48 美元；V4 Flash 每百万输入/输出 token 0.14 美元 / 0.28 美元。缓存命中输入 token 定价：V4 Pro 每百万 token 0.145 美元，V4 Flash 每百万 token 0.028 美元。V4 Pro 比过去的 DeepSeek R1 和 V3 模型贵得多。

Intelligence Index 大幅提升 10 分：DeepSeek V4 Pro (Max) 在 Artificial Analysis Intelligence Index 上得分为 52，较 V3.2 的 42 分有所提升，使其成为仅次于 Kimi K2.6 的第二大开源权重推理模型。

DeepSeek V4 Pro 大幅扩展了 DeepSeek 的架构，而 V4 Flash 则定位于规模效率：V4 Pro 是 DeepSeek 迄今为止最大的模型，总参数量 1.6T / 激活参数 49B，相比 V3 系列的 671B 总参数量 / 37B 激活参数架构是一个重大升级。V4 Flash 小得多，总参数量 284B / 激活参数 13B，但在智能 vs 规模的前沿上表现强劲，接近 MiniMax-M2.7。

DeepSeek V4 Pro 在 GDPval-AA（我们的 agentic 真实工作任务基准）上领先于开源权重模型。V4 Pro (Max) 得分为 1554，领先于 Kimi K2.6 (1484)、GLM-5.1 (1535)、GLM-5 (1402) 和 MiniMax-M2.7 (1514)。V4 Flash（推理，Max Effort）得分为 1388。

成本低于前沿模型，但高 token 使用量使成本高于大多数开源权重同行：DeepSeek V4 Pro 运行 Artificial Analysis Intelligence Index 的成本为 1,071 美元，比 Claude Opus 4.7（4,811 美元）便宜 4 倍以上，但高于几个开源权重模型，包括 Kimi K2.6（948 美元）、GLM-5.1（544 美元）、DeepSeek V3.2（71 美元）和 gpt-oss-120B（67 美元）。这部分是由于高输出 token 使用量：V4 Pro 为 1.9 亿 token，V4 Flash 为 2.4 亿 token，尽管 Flash 整体便宜得多，为 113 美元。

知识提升但幻觉率增加：DeepSeek V4 Pro (Max) 在 AA-Omniscience 上得分为 -10，较 V3.2（推理，-21）提升了 11 分，主要得益于更高的准确率。V4 Flash (Max) 得分为 -23，与 V3.2 大致持平。V4 Pro 和 V4 Flash 的幻觉率分别高达 94% 和 96%，这意味着当它们不知道答案时，几乎总是会给出回应。

DeepSeek V4 Pro 和 V4 Flash 的单项基准测试结果

关于 DeepSeek V4 Pro 和 Flash 的更多基准测试和分析，请访问 Artificial Analysis：https://artificialanalysis.ai/

译自 Artificial Analysis · 评测 · 录于二〇二六年五月十二日