可信第三方评估的共享指南

A shared playbook for trustworthy third party evaluations

二〇二六年五月二十九日 · 英文原文

摘要

OpenAI 分享了第三方评估前沿模型的经验，强调评估设置（harness）对结果的关键影响。评估需明确声明类型（能力激发、防护措施性能或比较），并报告 harness 选择、预算及有效性检查（如奖励黑客、污染、蓄意低能）。以 GPT-5.5 为例，英国 AISI 网络评估显示，将预算从 1000 万 token 增至 1 亿 token 可提升性能达 59%。OpenAI 建议评估标准应包含声明、评估内容、被测试系统、预算、激发方法和有效性检查等细节。

独立、可信的第三方评估在强化安全生态系统中扮演着关键角色。这些评估针对前沿模型进行，旨在为有关关键能力和安全缓解措施的声明提供额外证据。在这篇文章中，我们分享迄今为止学到的经验，并推荐设计能够有效评估前沿模型的评估方法，希望有助于为该领域新兴标准的形成提供参考。

早期，许多评估将模型视为聊天机器人：评估通过提示（prompt）模型，就像用户提问一样，模型回答，然后评估者判断输出。如今的前沿模型能做更多事情：它们可以使用工具、跨多个步骤追踪信息，并在更大的工作流中行动。这意味着性能不仅取决于模型本身，还取决于任务发生的环境，以及促进其行动的设置。这种周边设置，我们称之为“harness”，可以改变系统性能的关键方面，包括它如何使用工具、追踪信息或从错误中恢复。

这改变了评估的进行方式，以及读者应在评估报告中关注什么。我们认为，最有用的报告会明确描述结果本身之外的两件事：第一，它们指明评估设置旨在测试什么声明；第二，它们分享评估结果有效的可用证据。

评估中测试的声明通常属于以下三类之一¹：

能力激发：模型是否可能展现出被评估的能力？
防护措施性能：被测试的防护措施对评估中的行为或攻击有多鲁棒？
比较：不同模型在同等条件下表现如何？

评估报告还需要解释评估者如何检查可能影响结果有效性的因素。这些因素包括：

奖励黑客：利用任务或评分器中的捷径，使系统在不展示评估旨在衡量的行为的情况下获得分数。
拒绝：以掩盖被测试行为的方式拒绝。
污染：由于评估任务、答案或高度相似的变体出现在训练数据中，或在评估期间可通过浏览等方式被发现，导致表现过高。
问题缺陷：由于任务无效导致表现不佳。原因可能包括不公平的评分（例如，正确答案需要未说明的实现细节）和无法解决的环境（例如，缺少关键文件或工具不可靠）。
蓄意低能：当系统意识到自己被评估时，故意表现不佳。

为评估选择合适的 harness 对于获得最佳结果至关重要

我们观察到，对于在较长轨迹上行动的系统，harness 的作用尤其重要。当模型能够使用工具、维护状态并在多个步骤中从错误中恢复时，harness 可以改变观察到的性能水平，甚至决定被评估的能力是否会在评估中出现。例如，一个保留状态并重试失败操作的 harness 可能让模型完成一个在更简单的 harness 中永远无法完成的多步骤任务。

在下表中，我们区分了评估者可能希望做出的三类声明，以及我们认为每类声明所需的 harness。

评估试图支持的声明	合适的 harness 选择	需要报告的证据
强激发下的能力：当设置旨在引出系统最可信的强性能时，系统 A 可以完成 X 类型的任务。	使用系统最可信的强激发设置，包括一个有能力用户会合理使用的 harness、工具、脚手架和预算。	harness 和工具设置、激发指导、允许的预算/工作量、token/成本/时间，以及为什么该设置是所声称能力的可信代理。如果在不同优化设置下比较系统，应标记为系统间比较或强激发比较。
受控比较：在共享评估设置下，系统 A 优于系统 B。	保持任务、评分和预算固定。使用共享的 harness/工具设置，或一组预先选定的固定标准化 harness，为被比较的系统提供合理的最大激发。	共享的任务集、工具、评分方法、harness、预算、token 效率/成本以及已知限制。对于编码 agent 评估，像 Codex CLI 这样的开源 harness 可以提供跨系统的固定 agent 循环和工具接口。为每个任务和系统优化定制 harness 是最大激发的理想方法，但目前在实践中不可行。
受激发攻击下的防护措施鲁棒性：系统 A 的防护措施对于相关的模型行为或受激发的攻击是足够的。	使用旨在在相关对手模型下引出最强可信攻击的防护措施测试设置。	评估者如何描述相关模型行为、测试的防护措施配置、激发策略、用于执行该策略的 harness，以及允许的预算或工作量。

能力声明的强度取决于其背后的激发：评估者需要选择最适合任务和评估试图衡量的能力的 harness。 标准化 harness 可能适用于在相同条件下比较系统，但当它省略了帮助模型执行任务的特定 harness 特性时，可能会低估能力。例如，GPT‑5.5 在 OpenAI 网络靶场上的表现显示了 harness 选择如何能在需要长时间、多步骤工具使用的任务上实质性地改变测量到的能力：当 harness 使用压缩来在交互变长时保留任务相关上下文时，模型表现更好。这表明，对于某些模型，省略压缩的 harness 会低估性能。

更高的成功率更好

其他已发表的评估² 也显示 harness 和预算选择会改变评估结果。增加测试时计算量可以显著改变评估激发出的能力，尤其是在成功易于验证的领域，例如许多网络任务。在英国 AISI 的网络靶场评估中，将预算从 1000 万 token 增加到 1 亿 token，性能提升了高达 59%，并且在测试的最高预算下性能仍在提升。详细说明这一点使评估更具可解释性：它向读者展示了结果如何依赖于测试的激发设置。当性能随着预算增加仍在提升时，分数应被描述为在该 harness 和预算下的性能，而不是测量到的能力上限。能力通常依赖于资源，而不是一个可以一劳永逸地清晰测量的固定量。当成功可以通过重复尝试来衡量时，报告还应考虑每次成功解决的平均预期成本，而不仅仅是固定 token 预算下的成功率。这可以使严重性更易于解读：如果重复尝试的成本在相关威胁模型范围内，即使成功率很低，也可能具有实际意义。对于能力声明，可避免的低激发是测量失败：如果 harness 或预算阻止了系统展示其本可以产生的行为，那么分数就没有测量所声称的能力。当评估者已将激发推至可行极限且性能仍在提升时，报告应明确说明，并明确指出结果仅为下限估计。

防护措施测试可能会低估攻击能否成功及其严重程度，如果没有考虑攻击者可用的资源，包括定制 harness。 在英国 AISI 的 GPT‑5.5 网络评估中，他们的专家红队发现了一种通用越狱，在 OpenAI 提供的恶意查询中（包括多轮 agent 设置）引发了违规的网络内容。他们使用 Codex 创建了一个定制 harness 来增强模型的攻击性能：它将一个可重用的防护措施绕过模式嵌入到交互中，跨轮次和块保留该模式，并将其应用于 OpenAI 提供的恶意网络查询。防护措施测试应与对手相匹配。如果声明是关于对专家误用的鲁棒性，那么测试应在定义的预算下评估最强可信的端到端攻击策略，包括任何需要保留和重用该策略的 harness。否则，结果存在校准错误的风险：它们可能只支持一个关于抵抗更简单提示的较窄声明，可能既错过了攻击一旦激发方法可操作化后的严重程度和成功概率，也可能在预算过多时高估问题的可能性或严重性。

标准化 harness 比较有其时间和场合，但评估者应明确说明为什么使用一组一致的 harness 是合适的，以及它能支持什么声明。 METR 的时间跨度评估是一个更广泛、适当固定的评估设置的例子：它旨在对其评估的系统产生可比较的结果。METR 定义了一个共同的结果，即预测 AI agent 在给定可靠性水平下成功完成人类任务所需的典型持续时间。它在每组一起报告的估计中应用共享的任务套件、评分方法、拟合方法以及一小套可重用的脚手架，如 Triframe 和 ReAct。当 METR 扩展任务套件并将评估基础设施从名为 Vivaria 的框架迁移到名为 Inspect 的框架时，它报告了这一变化（时间跨度 1.1 更新)，并在新的评估设置下重新评估了模型。这就是标准化评估设置（包括一致的 harness 集）的价值：它可以让读者确信分数的差异确实反映了被比较系统之间的差异，而不是测量设置的变化。

我们建议第三方评估报告说明其评估设置旨在支持哪种声明；描述测试内容在多大程度上反映了该更广泛的声明；描述影响结果的 harness 选择；详细说明这些选择在评估之间何时发生变化；并包括支持性证据，以展示结果是如何产生的，以及它在多大程度上可以推广到该声明。

通过检查已知的、可能扭曲结果的风险来评估有效性

随着模型能力越来越强，评估分数更容易被误解。相对于真实能力，如果模型识别出自己被评估并策略性地表现不佳，评估分数可能会被人为降低。如果模型利用了任务、提示、评分器或 harness 中的捷径，分数可能会被夸大。分数也可能因污染（模型在不解决任务的情况下已经知道或能找到答案）或“有缺陷”的问题（这些问题是模糊的、评分错误的、无法解决的，或容易受到意外捷径的影响）而失真。因此，评估报告应将主要分数与对这些风险的讨论结合起来，以便读者评估分数是否反映了预期的行为。

Harness、预算、工具、评分规则、监控器和审查程序都会影响 agent 是在解决预期任务、回避任务、记忆任务，还是找到绕过任务的方法。一份可信的报告会使这些检查透明可见：评估者应在每次运行评估时审查样本中是否存在这些行为。

奖励黑客

奖励黑客意味着以不反映预期能力的方式获得高评估分数。这里的问题是，系统通过利用任务、评分器、提示或 harness 而不是通过执行评估旨在衡量的工作来获得分数。METR 对 GPT 5.4 的评估显示了这一点的重要性：尽管模型完成任务的成功率在初步看来相当于大约 13 小时的时间跨度，但人工审查显示，其中一些成功来自奖励黑客，而将结果修正为仅考虑那些没有奖励黑客的实例后，估计值降低到了大约 6 小时。评估者应评估此类调整的必要性，并在需要时明确报告：当读者能够看到哪些明显的成功被取消了资格、为何被取消资格以及结果在多大程度上依赖于该判断时，能力估计值会更有用。

图 1：显示 AI 模型性能随时间变化的图表，带有趋势线和置信区间。

拒绝

模型也可能因防护措施而在能力评估中表现不佳。由于拒绝完成评估任务而非完成它们，模型可能表现出低于其实际能力的评估性能。因此，报告应解释拒绝是否是评估结果的一部分，如果是，那么有多少样本因此受到影响。

污染

污染对于公开或重复使用的基准最为重要。如果任务、答案或高度相似的变体出现在训练数据中，或者可以被具有浏览能力的 agent 找到，那么性能可能反映的是记忆或检索，而不是模型性能。评估者应尽可能优先使用私有或新构建的任务，并在解决之前测试模型是否重现了任务特定的细节。

问题缺陷

问题缺陷包括诸如问题意外无法解决等情况。问题缺陷相当常见，应被视为标准有效性风险。它们包括不正确的真实答案、模糊的提示、缺失的文件、不稳定的服务、不公平的评分标准，以及暴露捷径的环境，例如隐藏的答案文件或包含真实补丁的仓库历史。

蓄意低能

模型或系统的蓄意低能意味着在强性能会与某些目标冲突时策略性地表现不佳。Apollo 的 GPT‑5.5 评估通过创建一个模型理解高评估分数可能触发遗忘或阻止部署的上下文来测试这一点。GPT‑5.5 仍然正确回答，表明几乎没有策略性表现不佳的行为证据³。但他们对其推理轨迹的审查增加了重要的背景信息：Apollo 在 52% 的蓄意低能条件样本中发现了中等或更高程度的对齐评估意识迹象，而在反事实样本中为 0%。这一证据使结果的解读复杂化，但最终为读者提供了更多信号：读者既可以看到令人放心的行为结果，也可以看到需要谨慎过度解读的理由。

我们如何支持更强的评估

强有力的声明需要正确的 harness 来引出行为，以及有效性检查来证明结果是可靠的。我们认为 harness 和有效性检查是评估结果一部分的观点，塑造了我们实际支持第三方评估的方式：

我们正在与评估者分享具体的最大激发指导。
我们要求能力评估者使用 Codex 作为 OpenAI 模型的通用基线：测试至少应通过用户可能依赖的相同 agent 接口运行基线，而不仅仅是通过精简的模型接口。
在需要评估欺骗、蓄意低能或评估意识时，我们也会提供推理轨迹和其他中间产物。自 GPT‑5 以来，METR 和 Apollo 在 OpenAI 评估中使用了这种访问权限。
最后，我们优先研究以更深入地理解 harness 选择何时以及如何实质性地改变结果，涵盖上下文管理、工具访问、重试行为、评分和资源预算等方面。

这对评估标准和未来研究方向意味着什么

这些建议不仅旨在改进单个评估报告，也旨在为新兴的国家和国际前沿 AI 评估与报告标准提供参考。展望未来，第三方评估标准应要求提供足够的细节，以便决策者理解特定评估支持哪些声明、测试了哪个系统、结果是如何被激发出来的，以及评估者如何检查其有效性。对于在 agent 能力至关重要的任务上进行测试的前沿系统，细节应包括（在考虑任何安全或保密问题的情况下）：

声明：评估是比较系统、估计能力上限，还是测试防护措施。
评估内容：关于任务或任务分布的足够细节，以便读者理解评估实际测试的技能、行为或失败模式。
被测试系统：模型、推理设置、工具访问、harness 和防护措施。
预算：轮次、token、尝试/重试次数、挂钟时间、推理成本，以及适用情况下的每次成功解决的平均预期成本。
激发方法：用于引出结果的 harness 选择，以及测试内容在多大程度上反映了所提出的更广泛声明。
有效性检查：评估者如何寻找奖励黑客、评估意识、污染、拒绝、蓄意低能和其他可能破坏结果的行为，包括已确认案例如何影响评分或解读。

忽略 harness 选择或有效性检查的标准可能会低估系统能力或高估对安全声明的信心。构建强大的 harness 和激发方法仍然是一个开放的研究领域，应成为进一步调查和投资的焦点。

译自 OpenAI · 官方博客 · 录于二〇二六年五月二十九日