一声棒喝,本不立文字
偏要著録,已是二义

OpenAI · 官方博客

介绍 GPT-5.5

Introducing GPT-5.5

二〇二六年五月三日 · 英文原文

OpenAI 发布 GPT‑5.5 与 GPT‑5.5 Pro,并于 2026 年 4 月 24 日开放 API。模型面向 agentic coding、computer use、知识工作和科研任务,在 Terminal-Bench 2.0 得 82.7%、GDPval 得 84.9%,Codex context window 为 400K,API context window 为 1M,并加入 cybersecurity、biology safeguards。

2026 年 4 月 23 日

面向真实工作的全新智能类别

加载中…分享2026 年 4 月 24 日更新:GPT‑5.5 和 GPT‑5.5 Pro 现已在 API 中提供。system card 也已更新,用于说明适用的额外 safeguards。

我们正在发布 GPT‑5.5,这是我们迄今最聪明、使用起来最直观的模型,也是迈向一种在计算机上完成工作的新方式的下一步。

GPT‑5.5 能更快理解你想做什么,并能自行承担更多工作。它擅长编写和调试代码、在线研究、分析数据、创建文档和电子表格、操作软件,并在不同工具之间切换,直到任务完成。你不必再细致管理每一步,而是可以把一个混乱的、多部分组成的任务交给 GPT‑5.5,并相信它会制定计划、使用工具、检查自己的工作、在模糊性中推进,并持续执行。

这些提升在 agentic coding、computer use、知识工作和早期科学研究方面尤其明显——这些领域的进展依赖于跨上下文推理,并在一段时间内持续采取行动。GPT‑5.5 在智能上实现了这一步提升,同时没有牺牲速度:更大、更强的模型通常服务速度更慢,但 GPT‑5.5 在真实服务场景中的 per-token latency 与 GPT‑5.4 持平,同时展现出高得多的智能水平。它还使用显著更少的 token 完成相同的 Codex 任务,因此不仅能力更强,也更高效。

我们发布 GPT‑5.5 时配备了迄今最强的一组 safeguards,旨在减少滥用,同时保留对有益工作的访问。我们在完整的安全与 preparedness frameworks 上评估了该模型,与内部和外部 redteamers 合作,增加了针对高级 cybersecurity 和 biology 能力的定向测试,并在发布前从近 200 个可信早期访问合作伙伴那里收集了真实用例反馈。

今天,GPT‑5.5 正在 ChatGPT 和 Codex 中向 Plus、Pro、Business 和 Enterprise 用户推出,GPT‑5.5 Pro 正在 ChatGPT 中向 Pro、Business 和 Enterprise 用户推出。API 部署需要不同的 safeguards,我们正在与合作伙伴和客户密切合作,确定大规模服务所需的安全和 security 要求。我们很快会把 GPT‑5.5 和 GPT‑5.5 Pro 带到 API。

GPT-5.5

GPT-5.4

GPT-5.5 Pro

GPT-5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Terminal-Bench 2.0

82.7%

75.1%

69.4%

68.5%

Expert-SWE(Internal)

73.1%

68.5%

GDPval(wins or ties)

84.9%

83.0%

82.3%

82.0%

80.3%

67.3%

OSWorld-Verified

78.7%

75.0%

78.0%

Toolathlon

55.6%

54.6%

48.8%

BrowseComp

84.4%

82.7%

90.1%

89.3%

79.3%

85.9%

FrontierMath Tier 1–3

51.7%

47.6%

52.4%

50.0%

43.8%

36.9%

FrontierMath Tier 4

35.4%

27.1%

39.6%

38.0%

22.9%

16.7%

CyberGym

81.8%

79.0%

73.1%

OpenAI 正在构建面向 agentic AI 的全球基础设施,让世界各地的人和企业能够用 AI 完成工作。过去一年,我们看到 AI 显著加速了软件工程。随着 GPT‑5.5 进入 Codex 和 ChatGPT,同样的变化开始扩展到科学研究,以及人们在计算机上完成的更广泛工作。

在这些领域中,GPT‑5.5 不只是更智能;它处理问题的方式也更高效,往往能用更少 token 和更少重试达到更高质量的输出。在 Artificial Analysis 的 Coding Index 上,GPT‑5.5 以竞争性 frontier coding 模型一半的成本,提供了 SOTA 的智能水平。

Artificial Analysis Intelligence Index⁠(在新窗口中打开)是由外部机构运行的 10 项 eval 的加权平均值:AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity’s Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ²-Bench Telecom。

GPT‑5.5 是我们迄今最强的 agentic coding 模型。在 Terminal-Bench 2.0 上,该 benchmark 测试需要规划、迭代和工具协调的复杂命令行工作流,GPT‑5.5 达到 82.7% 的 SOTA 准确率。在 SWE-Bench Pro 上,该 benchmark 评估真实世界 GitHub issue 的解决能力,GPT‑5.5 达到 58.6%,比以往模型能在单次流程中端到端解决更多任务。在 Expert-SWE 上,这是我们针对长周期 coding 任务的内部 frontier eval,其中位估计人类完成时间为 20 小时,GPT‑5.5 也优于 GPT‑5.4。

在这三项 eval 中,GPT‑5.5 都提升了 GPT‑5.4 的分数,同时使用更少 token。

该模型的 coding 优势在 Codex 中表现得尤其清楚,它可以承担从实现、重构到调试、测试和验证的工程工作。早期测试表明,GPT‑5.5 更擅长真实工程工作所依赖的行为,例如在大型系统中保持上下文、推理模糊故障、用工具检查假设,并把变更贯彻到周边 codebase 中。

渲染出的轨迹使用 NASA/JPL Horizons 关于 Orion、Moon 和 Sun 的矢量数据,并为可读性应用了显示缩放。

Prompt:[attached image] 将其作为一个新 app 实现,使用 webgl 和 vite,并使用 artemis II mission 的真实数据。确保彻底测试该 app,直到它完全可用,并且看起来像图片中的 app。请特别注意行星和飞行路径的渲染。我希望能够与 3D 渲染交互。确保它具备真实的轨道力学。

除了 benchmark,早期测试者表示 GPT‑5.5 表现出更强的系统结构理解能力:为什么某个东西会失败,修复应该落在哪里,以及 codebase 中还有什么会受到影响。

“这是我用过的第一个具备严肃概念清晰度的 coding 模型。”

“这是我用过的第一个具备严肃概念清晰度的 coding 模型。”

Every 创始人兼 CEO Dan Shipper 将 GPT‑5.5 描述为“我用过的第一个具备严肃概念清晰度的 coding 模型。”

在发布一个 app 后,他花了数天调试一个发布后的问题,之后请来自己最优秀的工程师之一重写系统的一部分。为了测试 GPT‑5.5,他实际上把时间倒回去:模型能否查看损坏状态,并产出工程师最终决定采用的那类重写方案?GPT‑5.4 做不到。GPT‑5.5 做到了。

“这真的像是在与更高层次的智能协作,甚至会产生一种尊重感。”

“这真的像是在与更高层次的智能协作,甚至会产生一种尊重感。”

MagicPath CEO Pietro Schirano 也看到了类似的阶段性变化:GPT‑5.5 将一个包含数百项 frontend 和重构变更的 branch 合并到一个同样发生了大量变化的 main branch 中,并在约 20 分钟内一次性解决了这项工作。

测试该模型的资深工程师表示,GPT‑5.5 在推理和自主性方面明显强于 GPT‑5.4 和 Claude Opus 4.7,能够提前发现问题,并在没有明确 prompt 的情况下预测测试和 review 需求。一个案例中,一位工程师要求它重新架构协作式 markdown editor 中的评论系统,回来时看到的是一个几乎完成的 12-diff stack。其他人表示,他们需要做的实现纠正少得出乎意料,并且与 GPT‑5.4 相比,对 GPT‑5.5 的方案更有信心。

一位早期访问该模型的 NVIDIA 工程师甚至表示:“失去 GPT‑5.5 的访问权限感觉就像我的一条肢体被截掉了。”

让 GPT‑5.5 擅长 coding 的同样优势,也让它在日常计算机工作中很有用。由于该模型更擅长理解意图,它可以更自然地贯通知识工作的完整循环:查找信息、理解什么重要、使用工具、检查输出,并把原始材料转化为有用的东西。

在 Codex 中,GPT‑5.5 生成文档、电子表格和幻灯片演示的能力优于 GPT‑5.4。Alpha 测试者表示,在运营研究、电子表格建模,以及把混乱的业务输入转化为计划等工作中,它优于过去的模型。当与 Codex 的 computer use 技能结合时,GPT‑5.5 让我们更接近这样一种体验:模型真的能和你一起使用计算机——看到屏幕上的内容、点击、输入、导航界面,并精确地在工具之间切换。

OpenAI 的团队已经在真实工作流中使用这些能力。今天,公司超过 85% 的员工每周都会在软件工程、财务、沟通、市场营销、数据科学和产品管理等职能中使用 Codex。在 Comms 团队中,团队使用 Codex 中的 GPT‑5.5 分析了六个月的演讲请求数据,构建评分和风险框架,并验证一个自动化 Slack agent,使低风险请求可以自动处理,而更高风险请求仍会流转到人工 review。在 Finance 团队中,团队使用 Codex review 了 24,771 份 K-1 税表,总计 71,637 页;该工作流排除了个人信息,并帮助团队比上一年提前两周完成任务。在 Go-to-Market 团队中,一名员工自动化生成每周业务报告,每周节省 5-10 小时。

在 ChatGPT 中,GPT‑5.5 Thinking 为更难的问题提供更快帮助,以更智能、更简洁的答案帮助你更高效地推进复杂工作。它擅长 coding、研究、信息综合与分析,以及文档密集型任务等专业工作,尤其是在使用 plugins 时。

在 GPT‑5.5 Pro 中,早期测试者看到 ChatGPT 能承担的工作难度和质量都有显著提升,同时 latency 改善让它在高要求任务中实用得多。与 GPT‑5.4 Pro 相比,测试者认为 GPT‑5.5 Pro 的回答显著更全面、结构更好、更准确、更相关、更有用,在商业、法律、教育和数据科学方面表现尤其强。

GPT‑5.5 在多个反映这类工作的 benchmark 上达到 SOTA 表现。在 GDPval⁠⁠ 上,该 benchmark 测试 agent 在 44 种职业中产出明确定义的知识工作的能力,GPT‑5.5 得分为 84.9%。在 OSWorld-Verified 上,该 benchmark 衡量模型能否独立操作真实计算机环境,GPT‑5.5 达到 78.7%。在 Tau2-bench Telecom 上,该 benchmark 测试复杂客户服务工作流,GPT‑5.5 在没有 prompt tuning 的情况下达到 98.0%。GPT‑5.5 在其他知识工作 benchmark 上也表现强劲:FinanceAgent 为 60.0%,内部投行业务建模任务为 88.5%,OfficeQA Pro 为 54.1%。

Tau2-bench Telecom 在没有 prompt tuning 的情况下运行(并使用 GPT‑4.1 作为 user model)。GPT‑5.5 比其前代更理解任务意图,并且 token 效率更高。

GPT‑5.5 在科学和技术研究工作流上也显示出提升,这类工作需要的不只是回答一个难题。研究人员需要探索一个想法、收集证据、测试假设、解释结果,并决定下一步尝试什么。与其他模型相比,GPT‑5.5 更擅长在这一循环中持续推进。

值得注意的是,GPT‑5.5 在 GeneBench⁠(在新窗口中打开)上相比 GPT‑5.4 有明显提升。GeneBench 是一个新的 eval,聚焦遗传学和定量生物学中的多阶段科学数据分析。这些问题要求模型在最少监督指导下推理可能存在歧义或错误的数据,处理隐藏混杂因素或 QC 失败等现实障碍,并正确实现和解释现代统计方法。考虑到这里的任务通常相当于科学专家需要数天完成的项目,该模型的表现很突出。

类似地,在 BixBench⁠(在新窗口中打开)上,这是一个围绕真实世界生物信息学和数据分析设计的 benchmark,GPT‑5.5 在已有公开分数的模型中取得领先表现。该模型的科学能力现在已经足够强,可以作为真正的 co-scientist 有意义地加速生物医学研究前沿的进展。

另一个例子中,一个带有自定义 harness 的 GPT‑5.5 内部版本帮助发现了关于 Ramsey numbers 的一个新证明⁠(在新窗口中打开),Ramsey numbers 是组合数学中的核心对象之一。组合数学研究离散对象如何组合在一起:图、网络、集合和模式。粗略地说,Ramsey numbers 询问一个网络需要多大,某种秩序才必然出现。该领域的结果很少见,且通常技术难度较高。在这里,GPT‑5.5 找到了一个关于非对角 Ramsey numbers 的长期渐近事实的证明,后来在 Lean 中得到验证。这个结果是 GPT‑5.5 不只是贡献代码或解释,而是在核心研究领域贡献出一个出人意料且有用的数学论证的具体例子。

早期测试者在 ChatGPT 中使用 GPT‑5.5 Pro 的方式,不太像使用一次性回答引擎,而更像与研究伙伴协作:多轮批评稿件、压力测试技术论证、提出分析方案,并结合代码、笔记和 PDF 上下文开展工作。共同点是,GPT‑5.5 更擅长帮助研究人员从问题推进到实验,再到输出。

Jackson Laboratory for Genomic Medicine 的免疫学教授兼研究员 Derya Unutmaz 使用 GPT‑5.5 Pro 分析了一个包含 62 个样本和近 28,000 个基因的基因表达数据集,生成了一份详细研究报告,不仅总结了发现,还提出了关键问题和洞见——他说这项工作如果由他的团队完成,需要数月时间。

波兰 Poznań 的 Adam Mickiewicz University 数学助理教授 Bartosz Naskręcki 使用 Codex 中的 GPT‑5.5,仅用一个 prompt 在 11 分钟内构建了一个代数几何 app,用于可视化二次曲面的交线,并将所得曲线转换为 Weierstrass model。

他后来扩展了该 app,加入更稳定的奇点可视化,以及可在后续工作中复用的精确系数。对他而言,更大的变化在于 Codex 现在可以帮助实现自定义数学可视化和计算机代数工作流,而这类工作过去需要专门工具。综合来看,这些例子显示了 GPT‑5.5 正在把专家意图转化为可工作的研究工具和分析。

鸣谢:Bartosz Naskręcki⁠(在新窗口中打开)

Prompt:# 代数几何曲面相交

制作一个 app,绘制两个二次曲面,并用红色标出交线。使用计算 Riemann-Roch 定理将其转换为 Weierstrass curve。

主窗口

两个带色调的曲面,具有略微透明的 shading,高质量渲染,并沿一条红色代数曲线相交

支持用鼠标在两个方向上旋转,完整的 pinch 缩放机制,haptic press 显示小菜单,其中包含用于改变每个曲面系数的 sliders;通过 Z-buffor level 检测

右侧窗口

通过有效 Riemann-Roch 定理公式即时计算出的短 Weierstrass equation(定义在 Q 或二次域扩张上)

Ambient mode,其中所有 controls 都被隐藏,用户可以欣赏形状之美

规格

App 在浏览器中运行,轻量级实现,使用最新 full stack libraries,可移植,可部署

文档

Git repo、journal、plan(Markdown 文件)

以 GPT‑5.4 的 latency 服务 GPT‑5.5,需要把 inference 作为一个集成系统来重新思考,而不是一组孤立优化。GPT‑5.5 是为 NVIDIA GB200 和 GB300 NVL72 系统共同设计、在其上训练并提供服务的。Codex 和 GPT‑5.5 对我们实现性能目标起到了重要作用。Codex 帮助团队更快地从想法推进到可 benchmark 的实现:勾勒方法、连接实验,并帮助识别哪些优化值得更深入投入。GPT‑5.5 帮助发现并实现 stack 本身的关键改进。简单地说,模型帮助改进了服务它的基础设施。

其中一项改进是 load balancing 和 partitioning heuristics。在 GPT‑5.5 之前,我们会把 accelerator 上的请求拆分为固定数量的 chunks,以在 computing cores 之间平衡工作,确保大请求和小请求能在同一块 GPU 上运行。然而,预先确定数量的静态 chunks 并不适合所有流量形态。为了更好利用 GPU,Codex 分析了数周的生产流量模式,并编写自定义 heuristic algorithms,以最优方式 partition 和 balance 工作。这项工作产生了超出预期的影响,使 token generation speeds 提升超过 20%。

让世界为非常擅长发现和修补安全漏洞的模型做好准备,是一项团队运动,需要整个生态系统努力构建韧性,并通过 democratized model access 和 iterative deployment 迎接网络防御的下一个时代⁠。

Frontier models 在 cybersecurity 方面的能力越来越强。这些能力将被广泛分发,我们认为最好的前进路径,是确保它们能够被用于加速 cyber defense 并强化生态系统。

GPT‑5.5 是朝着能够解决世界上一些最难挑战(例如 cybersecurity)的 AI 迈出的渐进但重要的一步。去年 12 月的 GPT‑5.2 中,我们主动部署了必要的 cyber safeguards⁠,以限制我们的模型可能被用于 cyber abuse;现在,随着 GPT‑5.5,我们正在部署更严格的 classifiers 来识别潜在 cyber risk,部分用户最初可能会觉得不便,因为我们会随着时间推移继续调优它们。

多年来,随着模型逐步改进,我们一直把 cybersecurity 作为 Preparedness Framework⁠(在新窗口中打开)中的一个类别,同时以迭代方式开发和校准 mitigations,以便能够负责任地发布具备有意义 cybersecurity 能力的模型。

根据我们的 Preparedness Framework⁠(在新窗口中打开),我们将 GPT‑5.5 的 biological/chemical 和 cybersecurity 能力视为 High。虽然 GPT‑5.5 未达到 Critical cybersecurity capability level,但我们的评估和测试显示,与 GPT‑5.4 相比,它的 cybersecurity 能力提升了一个台阶。

此外,GPT‑5.5 在发布前经过了我们完整的 safety 和 governance 流程,包括 preparedness evaluations、特定领域测试、面向 advanced biology 和 cybersecurity capabilities 的新定向评估,以及与外部专家开展的稳健测试。我们在 GPT‑5.5 system card⁠(在新窗口中打开)中分享了更多细节。

这项工作反映了我们更广泛的 AI resilience 方法,我们认为随着模型能力提升,这种方法是必要的。我们希望强大的 AI 能提供给那些用它来保护系统、机构和公众的人。可行路径是可信访问、随能力扩展的稳健 safeguards,以及检测并响应严重滥用的运营能力。

今天,GPT‑5.5 正在 ChatGPT 和 Codex 中向 Plus、Pro、Business 和 Enterprise 用户推出,GPT‑5.5 Pro 正在 ChatGPT 中向 Pro、Business 和 Enterprise 用户推出。我们很快会把 GPT‑5.5 和 GPT‑5.5 Pro 带到 API。

在 ChatGPT 中,GPT‑5.5 Thinking 面向 Plus、Pro、Business 和 Enterprise 用户提供。GPT‑5.5 Pro 面向更难的问题和更高准确率的工作设计,面向 Pro、Business 和 Enterprise 用户提供。

在 Codex 中,GPT‑5.5 面向 Plus、Pro、Business、Enterprise、Edu 和 Go plans 提供,context window 为 400K。GPT‑5.5 也提供 Fast mode,token 生成速度快 1.5x,成本为 2.5x。

对于 API 开发者,gpt-5.5 很快将在 Responses 和 Chat Completions APIs 中提供,价格为每 1M input tokens $5、每 1M output tokens $30,context window 为 1M。Batch 和 Flex pricing 为标准 API 费率的一半,而 Priority processing 为标准费率的 2.5x。我们还将在 API 中发布 gpt-5.5-pro,以提供更高准确率,价格为每 1M input tokens $30、每 1M output tokens $180。完整详情请参见 pricing page⁠。

虽然 GPT‑5.5 的定价高于 GPT‑5.4,但它既更智能,也在 token 使用上高效得多。在 Codex 中,我们已经仔细调优体验,使 GPT‑5.5 对大多数用户来说能够用比 GPT‑5.4 更少的 token 交付更好的结果,同时继续在不同订阅级别提供充足使用量。

Eval

GPT-5.5

GPT‑5.4

GPT-5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

SWE-Bench Pro(Public)*

58.6%

57.7%

64.3%

54.2%

Terminal-Bench 2.0

82.7%

75.1%

69.4%

68.5%

Expert-SWE(Internal)

73.1%

68.5%

*Labs 已指出该 eval 存在 memorization⁠(在新窗口中打开)证据

Eval

GPT-5.5

GPT‑5.4

GPT-5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

GDPval(wins or ties)

84.9%

83.0%

82.3%

82.0%

80.3%

67.3%

FinanceAgent v1.1

60.0%

56.0%

61.5%

64.4%

59.7%

Investment Banking Modeling Tasks(Internal)

88.5%

87.3%

88.6%

83.6%

OfficeQA Pro

54.1%

53.2%

43.6%

18.1%

Eval

GPT-5.5

GPT‑5.4

GPT-5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

OSWorld-Verified

78.7%

75.0%

78.0%

MMMU Pro(no tools)

81.2%

81.2%

80.5%

MMMU Pro(with tools)

83.2%

82.1%

Eval

GPT-5.5

GPT‑5.4

GPT-5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

BrowseComp

84.4%

82.7%

90.1%

89.3%

79.3%

85.9%

MCP Atlas**

75.3%

70.6%

79.1%

78.2%

Toolathlon

55.6%

54.6%

48.8%

Tau2-bench Telecom***(original prompts)

98.0%

92.8%

** MCP Atlas:来自 Scale AI 在最新 2026 年 4 月更新后的结果。*** Tau2-bench telecom:5.5 和 5.4 使用 original prompts 的结果,即未进行 prompt adjustment。这不包含其他 labs 在进行 prompt adjustments 后评估得到的结果。

Eval

GPT-5.5

GPT‑5.4

GPT-5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

GeneBench

25.0%

19.0%

33.2%

25.6%

FrontierMath Tier 1–3

51.7%

47.6%

52.4%

50.0%

43.8%

36.9%

FrontierMath Tier 4

35.4%

27.1%

39.6%

38.0%

22.9%

16.7%

BixBench

80.5%

74.0%

GPQA Diamond

93.6%

92.8%

94.4%

94.2%

94.3%

Humanity's Last Exam(no tools)

41.4%

39.8%

43.1%

42.7%

46.9%

44.4%

Humanity's Last Exam(with tools)

52.2%

52.1%

57.2%

58.7%

54.7%

51.4%

Eval

GPT-5.5

GPT‑5.4

GPT-5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Capture-the-Flags challenge tasks(Internal)****

88.1%

83.7%

CyberGym

81.8%

79.0%

73.1%

**** system cards 中使用的最难 CTF 的扩展版本,加入了额外的高难挑战。

Eval

GPT-5.5

GPT‑5.4

GPT-5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Graphwalks BFS 256k f1

73.7%

62.5%

76.9%

Graphwalks BFS 1mil f1

45.4%

9.4%

41.2%(Opus 4.6)

Graphwalks parents 256k f1

90.1%

82.8%

93.6%

Graphwalks parents 1mil f1

58.5%

44.4%

72.0%(Opus 4.6)

OpenAI MRCR v2 8-needle 4K-8K

98.1%

97.3%

OpenAI MRCR v2 8-needle 8K-16K

93.0%

91.4%

OpenAI MRCR v2 8-needle 16K-32K

96.5%

97.2%

OpenAI MRCR v2 8-needle 32K-64K

90.0%

90.5%

OpenAI MRCR v2 8-needle 64K-128K

83.1%

86.0%

OpenAI MRCR v2 8-needle 128K-256K

87.5%

79.3%

59.2%

OpenAI MRCR v2 8-needle 256K-512K

81.5%

57.5%

OpenAI MRCR v2 8-needle 512K-1M

74.0%

36.6%

32.2%

Eval

GPT-5.5

GPT‑5.4

GPT-5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

ARC-AGI-1(Verified)

95.0%

93.7%

94.5%

93.5%

98.0%

ARC-AGI-2(Verified)

85.0%

73.3%

83.3%

75.8%

77.1%

GPT 的 eval 在 reasoning effort 设置为 xhigh 的情况下运行,并在研究环境中进行;在某些情况下,其输出可能与生产环境中的 ChatGPT 略有不同。

产品2026 年 4 月 28 日

产品2026 年 4 月 22 日

产品2026 年 4 月 22 日

译自 OpenAI · 官方博客 · 录于 二〇二六年五月三日