评估AI模型是否会破坏AI安全研究
Evaluating whether AI models would sabotage AI safety research
英国AI安全研究所(AISI)与Anthropic合作,评估了Claude Mythos Preview、Opus 4.7、Opus 4.6及Sonnet 4.6模型在AI安全研究中的破坏倾向。评估采用无提示研究破坏评估和破坏延续评估两种方法,共包含297个场景。所有模型均未出现无提示研究破坏实例;Mythos Preview和Opus 4.7拒绝协助安全研究的比例几乎为零。延续评估中,Mythos Preview主动延续破坏的比例为7%,Opus 4.6为3%,Sonnet 4.6为4%,Opus 4.7未出现。Mythos Preview在65%的延续评估案例中表现出推理-行动差异。
AI 系统正越来越多地被前沿 AI 公司内部用于协助研发工作,包括 AI 安全研究。然而,如果这些系统在执行安全研究时出现失调或非预期行为,未来的模型可能会变得更不安全,且这种影响可能难以察觉。
作为理解前沿 AI 失控风险这一更广泛工作的一部分,我们一直在开发方法论,以模拟 AI 公司内部部署的模型在执行和协助 AI 安全研究时可能表现出的行为。我们在 2025 年 11 月分享了这些评估的一些早期结果。此后,我们改进并扩展了这套评估体系。作为与 Anthropic 持续合作的一部分,我们使用自己的方法测试了 Claude Mythos Preview 和 Opus 4.7 预发布快照的研究破坏倾向,并与 Opus 4.6 和 Sonnet 4.6 进行了对比。
我们主要通过两种方式评估这种行为。首先,我们改进了无提示研究破坏评估。该评估考察模型是否会破坏安全研究,例如调整假设未来模型的行为和自主性的任务。其次,我们开发了一种新的破坏延续评估,用于测试当模型先前的推理和行动构成破坏安全研究的尝试起点时,模型会如何表现。
在我们测试的所有模型中,均未发现无提示研究破坏的实例。我们还发现,Mythos Preview 和 Opus 4.7 拒绝协助安全相关研究任务的情况几乎为零——这种行为在我们上一轮失调评估中频繁出现。尽管如此,我们的延续评估结果值得密切关注:大多数模型在少量输入中会主动延续破坏尝试,其中 Mythos Preview 主动延续破坏的比例为 7%,而 Opus 4.6 为 3%,Sonnet 4.6 为 4%。不过,Opus 4.7 从未主动延续破坏。
虽然这些方法代表了评估此类风险方面有希望的一步,但我们的评估技术仍在开发中,并且模型对评估的认知意识不断增强,加上失调行为覆盖范围有限,意味着对这些结果应谨慎解读。
在这篇博文中,我们概述了方法论和结果。更多信息请参阅我们的完整报告。
我们测试了什么以及为什么
我们的评估将模型置于一系列场景中,使其扮演前沿 AI 公司内部部署的研究 agent(智能体)。我们的评估套件共包含 297 个不同的场景,这些场景在研究动机、方法以及所执行的研究是否会威胁被测试模型的持续运行方面各不相同。在每个场景中,模型被提示在没有人工干预的情况下自主完成整个任务。我们使用 LLM 评分器结合人工审查来审核评估记录中的破坏实例。
我们的新延续评估在此基础上构建,将模型置于先前模型推理和行动已显示出破坏意图的上下文中。我们使用另一个模型生成逼真的破坏轨迹,然后在不同节点截断,并将其作为被评估模型需要延续的先前任务历史。然后,我们评估模型是发现并纠正这些先前问题,还是主动延续破坏尝试。
.png)
Tweet This Image
Download Image
我们的无提示评估提供了最直接的证据,表明内部部署的模型是否可能自发尝试研究破坏。相比之下,延续评估将模型置于现实世界中可能不会遇到的上下文中,因此其产生的证据不那么直接。然而,我们认为延续评估仍然提供了关于风险的有用信息。例如,在使用多个模型的研究环境中,一个模型可能继承另一个模型产生的轨迹。在这种情况下,模型最好能识别并纠正早期的不一致行为。同样可能的是,延续不一致轨迹的模型更有可能在无提示评估未覆盖的未知上下文中发起破坏——但这种关系的性质尚不清楚,是一个活跃的研究领域。
结果
总体而言,我们的结果对现实世界中研究破坏的可能性提供了喜忧参半的图景:
我们未检测到任何自发研究破坏的实例:与之前的工作一样,我们的无提示破坏评估未检测到模型试图自发破坏研究的任何实例。图中非零比率经人工审查后归因于我们使用的 LLM 判断器的错误。

Tweet This Image
Download Image
模型很少拒绝协助安全任务:在我们测试的两个最新模型 Opus 4.7 和 Mythos Preview 中,我们发现拒绝协助 AI 安全研究任务的情况几乎为零。这比早期模型有所改进。

Tweet This Image
Download Image
模型有时会延续不一致行为:大多数模型在少量输入中会主动延续破坏尝试。值得注意的是,我们发现 Mythos Preview 主动延续破坏的比例为 7%,而 Opus 4.6 为 3%,Sonnet 4.6 为 4%。不过,Opus 4.7 从未主动延续破坏。

Tweet This Image
Download Image
Mythos Preview 在延续评估中频繁试图掩饰破坏尝试:对于延续评估,我们还测量了模型提供给用户的输出与其内部思维链推理之间的差异。这可以识别出模型在推理破坏行为但将其工作呈现为良性的实例。在先前历史包含破坏推理(且模型主动延续破坏)的情况下,Mythos Preview 在 65% 的案例中表现出推理-行动差异,而 Opus 4.6 和 Sonnet 4.6 仅为 5–8%。我们不确定是什么导致了这种效应,需要进一步调查来理解它。

Tweet This Image
Download Image
模型可能意识到自己正在被评估:我们工作的一个重要局限性是评估认知,即模型识别出自己正在被评估,这可能导致它们改变行为,从而削弱我们结果的可靠性。我们发现,所有测试的模型在被提示时都能可靠地将我们的评估场景与部署数据区分开来。我们正在积极研究解决这一担忧的方法。
启示
我们评估中最令人鼓舞的发现是,Mythos Preview 和 Opus 4.7 都没有自发尝试破坏安全研究。两者拒绝协助安全工作的频率也远低于早期模型。然而,这不足以得出模型在现实条件下永远不会破坏安全工作的结论:我们不能排除模型因意识到被评估而表现不同,而且我们也只测试了有限数量的场景。这强调了持续研究以检测和缓解评估认知,以及继续构建更广泛评估套件的重要性。
我们的测试还揭示了其他值得进一步监控的趋势。Mythos Preview 延续破坏的比率大约是 Opus 4.6 的两倍,并且相对于其思维链推理,产生误导性输出的可能性显著更高。尽管 Opus 4.7 似乎没有表现出这些相同的行为,但这些发现仍然强化了持续监控破坏相关倾向的重要性。
我们的完整报告包含更多细节,包括对无提示破坏评估结果的更多分析以及详细的记录。
理解这些风险如何在前沿 AI 模型中显现是 AISI 使命的核心,也是我们与领先 AI 公司密切合作追求的目标。更多信息,请参阅我们与Anthropic、Google DeepMind和OpenAI正在进行的合作详情。