@atomic_chat_hq Qwen 3.7-max 击败 Opus 4.7 和 GPT-5.5 我们测试了三款前沿…

@atomic_chat_hq Qwen 3.7-max beats Opus 4.7 and GPT-5.5 We tested three frontie…

二〇二六年五月二十二日 · 英文原文

摘要

在真实 agent 任务中，Qwen 3.7-Max、Claude Opus 4.7 与 GPT-5.5 被测试编写能自行游玩并自我训练的俄罗斯方块机器人，每款模型在 10 次迭代中读取自身代码、运行基准测试并重写。最终 Qwen 3.7-Max 以 $1.32 训练成本实现机器人性能提升 +56%，优于 Claude Opus 4.7（$12.15，+28%）和 GPT-5.5（$2.85，+7%），成本分别低 9 倍和 2 倍。

Qwen 3.7-max 击败了 Opus 4.7 和 GPT-5.5

我们在一个真实的 agent 任务上测试了三款前沿模型：编写一个能自行游玩并自我训练的俄罗斯方块机器人。每个模型都能读取自己的代码、运行基准测试，并在 10 次迭代中重写自身。然后我们对最终生成的机器人进行了直接对比。

Qwen 3.7-Max：训练成本 $1.32，机器人性能提升 +56% Claude Opus 4.7：训练成本 $12.15，机器人性能提升 +28% GPT-5.5：训练成本 $2.85，机器人性能提升 +7%

Qwen 在所有维度上胜出——提升幅度最大，成本比 Claude 便宜 9 倍，比 GPT 便宜 2 倍。在长 agent 循环场景中，Qwen Max 确实表现出色。

译自 X · AI 高热 · 录于二〇二六年五月二十二日