OpenAI的GPT-5.5成为领先AI模型
OpenAI's GPT-5.5 is the new leading AI model
OpenAI 发布 GPT-5.5,在 Artificial Analysis 智能指数上领先 3 分,打破与 Anthropic 和 Google 的三方并列。该模型提供 xhigh、high、medium、low 和 non-reasoning 五个推理努力级别。在 Terminal-Bench Hard、GDPval-AA 和 APEX-Agents-AA 上领先,GDPval-AA 中以 1785 Elo 排名第一。AA-Omniscience 准确率达 57%,但幻觉率 86%。每百万 token 定价 5/30 美元,token 使用量减少约 40%,运行 Index 成本增加约 20%。
OpenAI 的 GPT-5.5 成为新的领先模型。GPT-5.5 在 Artificial Analysis 智能指数上领先 3 分,打破了与 Anthropic 和 Google 的三方并列局面
OpenAI 向我们提供了预发布权限,用于测试全部五个推理努力级别:xhigh、high、medium、low 和 non-reasoning。
关键要点:
➤ OpenAI 在五项头条评估中领先: GPT-5.5 (xhigh) 在 Terminal-Bench Hard、GDPval-AA 以及我们新托管的 APEX-Agents-AA 上均领先。该模型仅在 CritPt 和 AA-LCR 上落后于其他 OpenAI 模型,并在另外三项评估中仅次于 Gemini 3.1 Pro Preview。最大提升出现在 AA-Omniscience(+14 分,我们的知识与幻觉 benchmark)和 τ²-Bench Telecom(+7 分,一个客服 agent benchmark)。
➤ 运行我们的 Index 成本增加约 20%: 每 token 定价从 GPT-5.4 翻倍,达到每 100 万输入/输出 token 5/30 美元。然而,token 使用量减少约 40% 在很大程度上抵消了涨价——导致运行我们的 Intelligence Index 净成本增加约 +20%。
➤ 努力级别为平衡智能与成本提供了清晰的阶梯: GPT-5.5 (medium) 在我们的 Intelligence Index 上得分与 Claude Opus 4.7 (max) 相同,但成本仅为后者的四分之一(约 1,200 美元 vs 4,800 美元)——尽管 Gemini 3.1 Pro Preview 以约 900 美元的成本获得了相同分数。GPT-5.5 (low) 在我们的 Intelligence Index 上接近 Claude Opus 4.7 (Non-reasoning, high),运行成本约为后者的一半(约 500 美元 vs 约 1,000 美元)。
➤ 在 GDPval-AA 中以 1785 的 Elo 排名第一: GPT-5.5 (xhigh) 领先 Claude Opus 4.7 (max) 约 30 分,领先 Gemini 3.1 Pro Preview 约 470 分。GDPval-AA 是 Artificial Analysis 的 benchmark,利用 OpenAI 的 GDPval 数据集评估模型在现实世界中有经济价值的任务上的表现。
➤ AA-Omniscience 准确率最高,但在幻觉方面落后于前沿: 我们的私有 AA-Omniscience benchmark 奖励跨不同主题的事实知识,但惩罚幻觉。GPT-5.5 (xhigh) 准确率最高,达到 57%——意味着该模型比任何其他模型都能更有效地回忆 Omniscience 语料库中的事实。然而,其幻觉率为 86%——而 Opus 4.7 (max) 为 36%,Gemini 3.1 Pro Preview 为 50%。这使得它在不“知道”答案时更有可能回答问题。从 GPT-5.4 (xhigh) 到 GPT-5.5 (xhigh) 在 AA-Omniscience 上的 14 分提升主要由知识驱动,幻觉方面仅有适度改善。
GPT-5.5 在 Artificial Analysis 智能指数上领先 3 分,打破了与 Anthropic 和 Google 的三方并列局面
OpenAI 在五项头条评估中领先,并在三项评估中仅次于 Gemini 3.1 Pro Preview。
努力变体为平衡智能与成本提供了清晰的阶梯。GPT-5.5 (xhigh) 运行我们的 Index 的成本比其前代产品高出约 20%,但比 Claude Opus 4.7 (max) 便宜 30%
GPT-5.5 (xhigh) 运行我们的 Index 所使用的输出 token 比其前代产品少约 40%
GPT-5.5 (xhigh) 以 1785 的 Elo 领先 GDPval-AA
GPT-5.5 (xhigh) 创下我们有史以来最高的 AA-Omniscience 准确率分数,但在幻觉方面落后于前沿
请访问 Artificial Analysis 了解 GPT-5.5 的更多详情和 benchmark:https://artificialanalysis.ai/models/gpt-5-5