@atomic_chat_hq Qwen 3.7-max 击败 Opus 4.7 和 GPT-5.5 我们测试了三款前沿…
@atomic_chat_hq Qwen 3.7-max beats Opus 4.7 and GPT-5.5 We tested three frontie…
摘要
在真实 agent 任务中,Qwen 3.7-Max、Claude Opus 4.7 与 GPT-5.5 被测试编写能自行游玩并自我训练的俄罗斯方块机器人,每款模型在 10 次迭代中读取自身代码、运行基准测试并重写。最终 Qwen 3.7-Max 以 $1.32 训练成本实现机器人性能提升 +56%,优于 Claude Opus 4.7($12.15,+28%)和 GPT-5.5($2.85,+7%),成本分别低 9 倍和 2 倍。
Qwen 3.7-max 击败了 Opus 4.7 和 GPT-5.5
我们在一个真实的 agent 任务上测试了三款前沿模型:编写一个能自行游玩并自我训练的俄罗斯方块机器人。每个模型都能读取自己的代码、运行基准测试,并在 10 次迭代中重写自身。然后我们对最终生成的机器人进行了直接对比。
Qwen 3.7-Max:训练成本 $1.32,机器人性能提升 +56% Claude Opus 4.7:训练成本 $12.15,机器人性能提升 +28% GPT-5.5:训练成本 $2.85,机器人性能提升 +7%
Qwen 在所有维度上胜出——提升幅度最大,成本比 Claude 便宜 9 倍,比 GPT 便宜 2 倍。在长 agent 循环场景中,Qwen Max 确实表现出色。
译自 X · AI 高热 · 录于 二〇二六年五月二十二日