一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@karminski3 花费106美元测试:Claude Opus 4.7 到底更新了啥?视觉能力+前端+后端…

@karminski3 花费106刀测试! Claude-Opus-4.7 到底更新了啥? 给大家带来 Claude-Opus-4.7 的视觉能力+前端+后端…

二〇二六年五月八日 · 英文原文

作者通过 OpenRouter 调用 API 测试 Claude-Opus-4.7,花费约 106 USD。测试覆盖视觉、多模态前端、复杂前端和后端能力,采用 pass@3 与 pass@6。结果显示其颜色识别、细微元素识别和空间理解较 Opus-4.6 提升,但部分前后端算法与 Harness 场景表现下降,需更具体 prompt 或多轮思考。

花费 106 刀测试!Claude-Opus-4.7 到底更新了什么?

给大家带来 Claude-Opus-4.7 的视觉能力、前端能力和后端能力测试!

本次测试中,多模态前端测试采用 pass@3(相同 prompt 运行 3 次取最好结果),复杂前端测试采用 pass@6,后端能力测试采用 pass@3。

从测试来看,Claude-Opus-4.7 最大的提升都来自视觉能力提升,包括颜色识别、细微画面元素识别,都比 Opus-4.6 有明显提升,甚至空间理解也变强了。我觉得用来替代 GPT-5.4-Pro 做多模态前端交互设计很不错(毕竟价格摆在那里)。

但是在其余考验硬实力的测试上,都出现了不同程度的下降。甚至我觉得这个下降不是模型能力导致的:只要 prompt 给出更具体的提示,比如告诉它要用 xxx 算法实现,它其实是能写出来的。但如果用在 Harness 场景,让它自己采用最优算法去实现和验证,通常就得不到比 Opus-4.6 更好的结果。

为什么会这样?核心问题我觉得是,这次即使给到 xhigh 的 reasoning effort,它的思考空间(budget)可能也不太够。具体表现就是感觉模型偷懒了:它能力强,但需要更多思考才能达到更强水平。(阴谋论一下,这也是为什么官方出了 xhigh 这个 reasoning level。)

所以在实际使用中,如果遇到性能下降问题,只能反复提示它,让它跨多个会话反复思考,才能达到预期效果。

最后,本次测试所有 API 调用均在 openrouter 完成,总计开销约 106 USD。

#claudeopus47 #opus47 #anthropic #claude #opus

译自 X · 研究者一手 · 录于 二〇二六年五月八日