X · 研究者一手

@karminski3 带来 DeepSeek-V4-Pro & Flash 测试速报：case 还在跑，先说大家熟悉的大象牙膏测试

@karminski3 给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试.…

二〇二六年五月八日 · 英文原文

摘要

测试者对 DeepSeek-V4-Pro & Flash 进行大象牙膏 case 测试，考察建模、粒子、物理模拟和光照等前端能力。pass@6 的 6 次代码分析显示，V4 相比 V3 系列效果提升，但玻璃材质未按 prompt 设置 roughness: 0.95、metalness: 0.35，常生成 0.12 和 0.05。

给大家带来 DeepSeek-V4-Pro & Flash 的测试速报。由于 case 还在跑，所以先说一下大家最熟悉的大象牙膏测试。

这个测试要求大模型建模一个锥形瓶，然后发生化学反应，产生泡沫喷发而出的效果。主要考验大模型在建模、粒子、物理模拟、光照等广义前端能力上的表现。

从这个 case 来看，DeepSeek-V4 比之前的 V3 整个系列都好了很多，效果很不错。不过大家注意一下细节，这个锥形瓶的表面看上去不是很透明。我仔细分析了 6 次生成的代码（测试是 pass@6，每个大模型都有 6 次生成机会，取最好的一次）。

结果发现它在 instruction following（指令遵循）上有点问题。prompt 要求玻璃材质是 roughness: 0.95、metalness: 0.35，结果它没有一次写对。而且很执拗地写成了 roughness: 0.12、metalness: 0.05（50% 概率）。

目前还不确定是不是普遍问题。等我全部测完，会给大家带来全面的编程能力评测视频~ 敬请期待。

#deepseek #deepseekv4 #deepseekv4pro #deepseekv4flash

译自 X · 研究者一手 · 录于二〇二六年五月八日