X · 研究者一手

@karminski3 花费106美元测试：Claude Opus 4.7 到底更新了啥？视觉能力+前端+后端…

@karminski3 花费106刀测试! Claude-Opus-4.7 到底更新了啥? 给大家带来 Claude-Opus-4.7 的视觉能力+前端+后端…

二〇二六年五月八日 · 英文原文

摘要

作者通过 OpenRouter 调用 API 测试 Claude-Opus-4.7，花费约 106 USD。测试覆盖视觉、多模态前端、复杂前端和后端能力，采用 pass@3 与 pass@6。结果显示其颜色识别、细微元素识别和空间理解较 Opus-4.6 提升，但部分前后端算法与 Harness 场景表现下降，需更具体 prompt 或多轮思考。

花费 106 刀测试！Claude-Opus-4.7 到底更新了什么？

给大家带来 Claude-Opus-4.7 的视觉能力、前端能力和后端能力测试！

本次测试中，多模态前端测试采用 pass@3（相同 prompt 运行 3 次取最好结果），复杂前端测试采用 pass@6，后端能力测试采用 pass@3。

从测试来看，Claude-Opus-4.7 最大的提升都来自视觉能力提升，包括颜色识别、细微画面元素识别，都比 Opus-4.6 有明显提升，甚至空间理解也变强了。我觉得用来替代 GPT-5.4-Pro 做多模态前端交互设计很不错（毕竟价格摆在那里）。

但是在其余考验硬实力的测试上，都出现了不同程度的下降。甚至我觉得这个下降不是模型能力导致的：只要 prompt 给出更具体的提示，比如告诉它要用 xxx 算法实现，它其实是能写出来的。但如果用在 Harness 场景，让它自己采用最优算法去实现和验证，通常就得不到比 Opus-4.6 更好的结果。

为什么会这样？核心问题我觉得是，这次即使给到 xhigh 的 reasoning effort，它的思考空间（budget）可能也不太够。具体表现就是感觉模型偷懒了：它能力强，但需要更多思考才能达到更强水平。（阴谋论一下，这也是为什么官方出了 xhigh 这个 reasoning level。）

所以在实际使用中，如果遇到性能下降问题，只能反复提示它，让它跨多个会话反复思考，才能达到预期效果。

最后，本次测试所有 API 调用均在 openrouter 完成，总计开销约 106 USD。

#claudeopus47 #opus47 #anthropic #claude #opus

译自 X · 研究者一手 · 录于二〇二六年五月八日