UK AI Security Institute

边界点越狱：突破最强AI防御的新方法

Boundary Point Jailbreaking: A new way to break the strongest AI defences

二〇二六年五月十四日 · 英文原文

摘要

英国AI安全研究所（AISI）提出边界点越狱（BPJ），一种完全自动化的黑盒攻击方法，可在仅知输入是否被拦截的条件下，生成通用对抗性前缀以突破顶级AI防御。BPJ结合课程学习与边界点搜索，在约330美元和66万次查询后，将Anthropic Constitutional Classifiers的有害请求平均得分从0%提至25.5%；在约210美元和80万次查询后，对OpenAI GPT-5输入分类器实现平均75.6%得分。AISI建议采用批量级监控而非单次交互防御。

边界点越狱：一种突破最强AI防御的新方法 | AISI 工作

请启用本网站的 JavaScript。

边界点越狱：一种突破最强AI防御的新方法

介绍一种自动化攻击技术，能够针对防御最完善的系统生成通用越狱方法

—

2026年2月17日

AI开发者使用安全防护措施来防止模型在面对越狱攻击时提供有害响应。越狱攻击是专门编写的 prompt（提示词），旨在规避这些防护措施并提取有害信息。

根据我们的经验，开发强大防护措施的最佳方法是反复尝试突破它们。过去两年，我们的红队通过扮演攻击者并开发越狱方法，测试了顶级AI公司的防护措施。我们对所有测试过的模型都成功开发了越狱方法，并与AI公司合作改进了它们的防御。

随着时间的推移，某些模型的防护措施有所改进，需要更多时间、精力和专业知识才能突破。但随着防护措施的改进，攻击者可能会开发出越来越复杂的技术。为了防御这种风险，我们开发了最先进的攻击技术，并与公司合作，在攻击成为现实之前进行防御。

今天，我们分享关于边界点越狱（Boundary Point Jailbreaking，BPJ）的信息：这是一种完全自动化的方法，能够在完全"黑盒"设置下，针对部署的最强AI防御系统开发通用越狱方法。在黑盒设置中，攻击者只能看到输入是否被拦截。

我们相信BPJ是首个成功突破Constitutional Classifiers [1]的自动化攻击。Constitutional Classifiers是Anthropic的防御系统，此前经受住了超过3700小时的人工红队测试，期间仅发现一次完全成功的人工主导越狱。BPJ也是首个在不依赖人工种子攻击的情况下，成功突破OpenAI的GPT-5输入分类器的自动化攻击 [2]。

我们分享BPJ的信息是负责任披露流程的一部分。BPJ不仅对AI开发者有影响，对任何试图保护AI系统的人也是如此。使用"单次交互"防御（即一次只查看一次交互）很难防御BPJ；相反，我们的结果表明，防御者应采用"批量级"监控系统，检测跨流量的可疑模式。

在这篇博文中，我们将解释BPJ的工作原理、它在实际系统中的表现，以及它对AI安全未来的意义。

‍

突破黑盒分类器的挑战

我们专注于攻击黑盒分类器，这是顶级AI公司使用的防御手段，由一个独立的模型监控交互并标记有害请求。BPJ旨在针对这些分类器开发一种_对抗性前缀_（adversarial prefix）[3]：当这种文本放在有害问题（"目标"）之前时，会导致分类器错误地将该问题判定为良性。

图1. 对抗性前缀。 正常情况下，有害请求会被辅助分类器标记，以防止模型响应（左图）。BPJ开发出对抗性前缀（红色前置文本）来规避分类器，从而从模型中提取有害信息（右图）。注意，此请求是来自公开数据集的示例说明——我们使用的问题通常更长、更深入。前缀同样仅为示意，并非BPJ发现的攻击（完整示例请参见主论文中的简单设置）。

黑盒分类器通常每次尝试只给攻击者一条信息：输入是否被标记为有害。这阻止了大多数先前的攻击算法，因为它们依赖于访问更丰富的信息，如分类器置信度分数、梯度或自然语言反馈。

当攻击强大的黑盒分类器时，你尝试的每个前缀通常都会被分类器标记，从而无法判断对前缀的某个修改是否比另一个稍好。因此，攻击黑盒分类器的核心困难在于评估对正在开发的前缀所做的修改是否有所改进。

‍

BPJ的工作原理

BPJ旨在解决这个评估问题。它通过两种协同工作的技术来实现：

课程学习（Curriculum Learning）： BPJ的第一个洞察是，不直接针对一个明显有害的问题，而是使用一个合成的_课程_，通过创建一系列难度逐渐增加的中间目标。从完全良性的内容开始，我们慢慢"混入"更多有害目标。我们首先针对较简单的级别优化攻击，然后随着攻击的改进增加难度。

图2. 课程学习。 BPJ通过使用"插值"函数生成中间目标的课程来解决困难的目标查询。在噪声插值中，我们将目标有害文本中的_n_个字符替换为噪声字符。较高的噪声级别（右图）对当前攻击更容易解决；较低的噪声级别（左图）更难。

边界点（Boundary Points）： 即使有了课程，大多数目标也无法提供信号，因为它们要么太容易（所有攻击修改都"未被标记"），要么太难（所有攻击修改都"被标记"）。BPJ的第二个关键洞察是主动搜索那些恰好位于被标记_边缘_的目标——即分类器的"决策边界"上。我们称这些为"边界点"。由于它们恰好位于边缘，即使攻击强度有微小改进也会敏感地反映出来，从而为算法提供学习信号。

图3. 边界点搜索。在课程级别内，我们寻找能够揭示攻击强度微小变化的攻击目标。为了找到这些目标，我们在当前最佳攻击上测试它们，并过滤掉那些_仅_被标记（对当前攻击来说太难）或_仅_未被标记（对当前攻击来说太容易）的目标。

完整算法在发现新的边界点和改进攻击之间交替进行，通过课程推进，直到成功攻击明显有害的问题。在我们的实验中，将课程学习与边界点相结合，比单独使用课程学习找到成功攻击的速度大约快5倍。值得注意的是，即使是针对基本分类器，随机搜索等先前方法也完全失败。

图4. BPJ相比随机生成前缀（Best-of-N）和仅课程方法有显著改进。BPJ平均比仅使用课程方法快5倍成功，而两者都比仅使用Best-of-N前缀快得多。

‍

结果

我们针对两个部署的最强防御系统测试了BPJ：Anthropic的Constitutional Classifiers和OpenAI的GPT-5输入分类器。

**图5.**BPJ成功突破Constitutional Classifiers和GPT-5的输入分类器。 BPJ在两个最难的公开防护系统的具有挑战性的未见生物滥用问题上表现良好。Max指每个问题50次查询中的最佳得分。

BPJ成功找到了针对这两个系统的越狱前缀。在这两种情况下，我们都发现了"通用"越狱——即能在一系列未见过的有害问题上起作用的越狱，而不仅仅是在优化过程中使用的问题。我们发现，在少量问题上运行BPJ会自动产生通用越狱。

针对Constitutional Classifiers，BPJ将一组有害问题的平均得分从0%提高到25.5%（50次尝试中最高39.9%），成本约为330美元和66万次查询 [4]。使用基本的prompt策略（elicitation），这些得分上升到平均68%（50次中最高80.4%）。针对GPT-5的输入分类器，BPJ实现了平均75.6%（50次中最高94.3%），成本约为210美元和80万次查询。

‍

对防御的启示

BPJ提醒我们，防护措施开发是一项持续的工程学科：随着防御的改进，攻击者也会适应。这意味着AI系统需要针对可用的最强方法进行测试，而不仅仅是最容易检测的方法。

BPJ不是一次性的、可修补的攻击，而是一种通用的算法，能够找到优化信号来改进攻击。因此，仅仅通过改进分类器来防御BPJ可能非常困难。相反，我们建议使用_批量级监控_（batch-level monitoring），聚合跨交互的流量，而不是试图通过一次只考虑单个交互来防止有害交互。更一般地说，BPJ强化了使用分层防御方法的重要性，以避免单点故障——特别是当该故障点可以直接被优化攻击时。

我们在发表前与Anthropic和OpenAI分享了这些结果，并对他们的回应感到鼓舞：两家公司都开发了针对BPJ的缓解措施，我们正在积极合作，继续开发和测试他们的防御。尽管实施像BPJ这样的攻击需要大量专业知识（即使有我们的协助，一家领先公司的研究人员也需要数周才能复现），但我们认为这是一个重要的指标，表明随着系统能力增强并部署在高风险环境中，开发者应为此类威胁做好准备。

推进我们对攻击的理解——并相应地改进防御——是AI系统变得更安全的方式。通过公开分享BPJ，我们希望为所有构建、部署和评估AI系统的人提供参考。

您可以在完整论文中阅读更多内容 [5]。

我们正在招聘。如果您对提高先进AI系统安全性的研究感到兴奋，请申请成为我们红队的研究科学家。

‍

[1] Anthropic确认，BPJ是他们所知的首个在Constitutional Classifiers设置中成功的完全自动化黑盒攻击，并且符合其漏洞赏金计划中描述的通用越狱标准。我们注意到，BPJ需要数月的研究和开发工作，而Constitutional Classifiers旨在抵御技能较低的攻击者，这些攻击者可能查询预算较少、投入攻击开发的时间较少，并且难以实现BPJ的细节。

[2] OpenAI确认，BPJ也是他们所知的首个在不依赖人工种子攻击的情况下成功突破OpenAI的GPT-5输入分类器的自动化攻击。我们注意到，BPJ的开发和执行是在未受到封禁等执法行动的账户上进行的；在标准账户上，重复标记可能导致账户被封禁，这是我们推荐的批量级监控的一个例子。

[3] BPJ专门针对分类器。我们使用一个基本的人工发现的越狱来规避主模型的拒绝。这些主模型越狱比攻击分类器系统更容易开发。

[4] "得分"是根据一个评分标准按问题计算的，该标准检查答案中是否包含特定的技术细节。

[5] 为降低扩散风险，我们省略了一些算法细节，并且不发布攻击字符串或代码。有关发布理由，请参见论文中的影响声明。

‍

作者：Xander Davies, Giorgi Giglemiani, Edmund Lau, Eric Winsor, Geoffrey Irving, Yarin Gal

‍