@karminski3 带来 DeepSeek-V4-Pro & Flash 测试速报:case 还在跑,先说大家熟悉的大象牙膏测试
@karminski3 给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试.…
测试者对 DeepSeek-V4-Pro & Flash 进行大象牙膏 case 测试,考察建模、粒子、物理模拟和光照等前端能力。pass@6 的 6 次代码分析显示,V4 相比 V3 系列效果提升,但玻璃材质未按 prompt 设置 roughness: 0.95、metalness: 0.35,常生成 0.12 和 0.05。
给大家带来 DeepSeek-V4-Pro & Flash 的测试速报。由于 case 还在跑,所以先说一下大家最熟悉的大象牙膏测试。
这个测试要求大模型建模一个锥形瓶,然后发生化学反应,产生泡沫喷发而出的效果。主要考验大模型在建模、粒子、物理模拟、光照等广义前端能力上的表现。
从这个 case 来看,DeepSeek-V4 比之前的 V3 整个系列都好了很多,效果很不错。不过大家注意一下细节,这个锥形瓶的表面看上去不是很透明。我仔细分析了 6 次生成的代码(测试是 pass@6,每个大模型都有 6 次生成机会,取最好的一次)。
结果发现它在 instruction following(指令遵循)上有点问题。prompt 要求玻璃材质是 roughness: 0.95、metalness: 0.35,结果它没有一次写对。而且很执拗地写成了 roughness: 0.12、metalness: 0.05(50% 概率)。
目前还不确定是不是普遍问题。等我全部测完,会给大家带来全面的编程能力评测视频~ 敬请期待。
#deepseek #deepseekv4 #deepseekv4pro #deepseekv4flash