Artificial Analysis · 评测

OpenAI的GPT-5.5成为领先AI模型

OpenAI's GPT-5.5 is the new leading AI model

二〇二六年五月十二日 · 英文原文

摘要

OpenAI 发布 GPT-5.5，在 Artificial Analysis 智能指数上领先 3 分，打破与 Anthropic 和 Google 的三方并列。该模型提供 xhigh、high、medium、low 和 non-reasoning 五个推理努力级别。在 Terminal-Bench Hard、GDPval-AA 和 APEX-Agents-AA 上领先，GDPval-AA 中以 1785 Elo 排名第一。AA-Omniscience 准确率达 57%，但幻觉率 86%。每百万 token 定价 5/30 美元，token 使用量减少约 40%，运行 Index 成本增加约 20%。

OpenAI 的 GPT-5.5 成为新的领先模型。GPT-5.5 在 Artificial Analysis 智能指数上领先 3 分，打破了与 Anthropic 和 Google 的三方并列局面

OpenAI 向我们提供了预发布权限，用于测试全部五个推理努力级别：xhigh、high、medium、low 和 non-reasoning。

关键要点：

➤ OpenAI 在五项头条评估中领先： GPT-5.5 (xhigh) 在 Terminal-Bench Hard、GDPval-AA 以及我们新托管的 APEX-Agents-AA 上均领先。该模型仅在 CritPt 和 AA-LCR 上落后于其他 OpenAI 模型，并在另外三项评估中仅次于 Gemini 3.1 Pro Preview。最大提升出现在 AA-Omniscience（+14 分，我们的知识与幻觉 benchmark）和 τ²-Bench Telecom（+7 分，一个客服 agent benchmark）。

➤ 运行我们的 Index 成本增加约 20%： 每 token 定价从 GPT-5.4 翻倍，达到每 100 万输入/输出 token 5/30 美元。然而，token 使用量减少约 40% 在很大程度上抵消了涨价——导致运行我们的 Intelligence Index 净成本增加约 +20%。

➤ 努力级别为平衡智能与成本提供了清晰的阶梯： GPT-5.5 (medium) 在我们的 Intelligence Index 上得分与 Claude Opus 4.7 (max) 相同，但成本仅为后者的四分之一（约 1,200 美元 vs 4,800 美元）——尽管 Gemini 3.1 Pro Preview 以约 900 美元的成本获得了相同分数。GPT-5.5 (low) 在我们的 Intelligence Index 上接近 Claude Opus 4.7 (Non-reasoning, high)，运行成本约为后者的一半（约 500 美元 vs 约 1,000 美元）。

➤ 在 GDPval-AA 中以 1785 的 Elo 排名第一： GPT-5.5 (xhigh) 领先 Claude Opus 4.7 (max) 约 30 分，领先 Gemini 3.1 Pro Preview 约 470 分。GDPval-AA 是 Artificial Analysis 的 benchmark，利用 OpenAI 的 GDPval 数据集评估模型在现实世界中有经济价值的任务上的表现。

➤ AA-Omniscience 准确率最高，但在幻觉方面落后于前沿： 我们的私有 AA-Omniscience benchmark 奖励跨不同主题的事实知识，但惩罚幻觉。GPT-5.5 (xhigh) 准确率最高，达到 57%——意味着该模型比任何其他模型都能更有效地回忆 Omniscience 语料库中的事实。然而，其幻觉率为 86%——而 Opus 4.7 (max) 为 36%，Gemini 3.1 Pro Preview 为 50%。这使得它在不“知道”答案时更有可能回答问题。从 GPT-5.4 (xhigh) 到 GPT-5.5 (xhigh) 在 AA-Omniscience 上的 14 分提升主要由知识驱动，幻觉方面仅有适度改善。

GPT-5.5 在 Artificial Analysis 智能指数上领先 3 分，打破了与 Anthropic 和 Google 的三方并列局面

OpenAI 在五项头条评估中领先，并在三项评估中仅次于 Gemini 3.1 Pro Preview。

努力变体为平衡智能与成本提供了清晰的阶梯。GPT-5.5 (xhigh) 运行我们的 Index 的成本比其前代产品高出约 20%，但比 Claude Opus 4.7 (max) 便宜 30%

GPT-5.5 (xhigh) 运行我们的 Index 所使用的输出 token 比其前代产品少约 40%

GPT-5.5 (xhigh) 以 1785 的 Elo 领先 GDPval-AA

GPT-5.5 (xhigh) 创下我们有史以来最高的 AA-Omniscience 准确率分数，但在幻觉方面落后于前沿

请访问 Artificial Analysis 了解 GPT-5.5 的更多详情和 benchmark：https://artificialanalysis.ai/models/gpt-5-5

译自 Artificial Analysis · 评测 · 录于二〇二六年五月十二日