UK AI Security Institute

UKAISI 亮相 NeurIPS 2025

UKAISI at NeurIPS 2025

二〇二六年五月十四日 · 英文原文

摘要

英国AI安全研究所（UK AISI）在NeurIPS 2025展示十篇论文，涵盖滥用防护、评估科学、现实世界韧性与失控风险。与Eleuther AI合作发现训练中过滤有害数据抵御对抗性微调效果比训练后防御高十倍；对445个语言模型benchmark的综述指出流行benchmark常无法可靠衡量意图现象；与Gray Swan AI开展最大规模公开红队竞赛，2000名参与者在40余场景触发超60,000次策略违规；开发RepliBench追踪AI自我复制能力，并研究特征吸收对稀疏自编码器（SAE）的影响。

UKAISI 在 NeurIPS 2025 | AISI 工作

请启用此网站的 JavaScript。

UKAISI 在 NeurIPS 2025

我们将在今年 NeurIPS 会议上展示的研究概览。

—

2025 年 11 月 26 日

下周，我们将参加在圣地亚哥举行的第 39 届神经信息处理系统年度会议（NeurIPS）。我们将展示十篇论文，介绍我们如何将 AI 安全建立在严谨的实证证据基础上，涵盖从滥用防护到新兴失控风险的各个领域。

我们还与 Eval Eval Coalition 合作举办了一场全天研讨会，并将与 AI 安全中心共同参与 Agent 安全小组讨论，以及其他活动。

提升模型防护的鲁棒性

随着 AI 模型能力不断增强，确保恶意行为者无法利用它们造成伤害将变得越来越重要。AISI 的红队对防止 AI 模型被滥用的防护措施进行压力测试，并与开发者合作改进这些措施。在 NeurIPS 上，我们将展示一项研究，揭示通过公共 API 防御语言模型恶意微调时存在的关键局限性。

与 Eleuther AI 合作完成的第二篇论文表明，在训练过程中过滤有害数据，其抵御对抗性微调的效果比训练后防御高出十倍。

推进 AI 评估的科学性

AI 能力评估是 AI 安全与安保生态系统的核心组成部分。我们如何确保这些评估能够追踪我们关心的真实世界风险？

我们合作完成了一项对 445 个语言模型 benchmark 的综述，分析了它们衡量什么、如何衡量以及由此得出的结论。我们发现，流行的 benchmark 往往无法可靠地衡量它们意图衡量的现象。我们的论文提出了八项关键建议来解决这一问题。我们还为 Agentic Benchmark Checklist（ABC）做出了贡献，这是一份构建严谨 agentic benchmark 的最佳实践清单。

我们将在 12 月 8 日与 Eval Eval Coalition 合作举办的全天研讨会“Evaluating AI in Practice”上讨论这些主题。您可以通过此处登记您的兴趣。

现实世界中的韧性

AI 能够带来最大益处的领域，往往也是故障可能造成最严重安全后果的领域。我们的工作有助于确保 AI 能够在多样化的用例中得到安全采用。

其中一个用例是软件开发。AI 模型在代码生成和调试方面展现出惊人的能力——但也可能引入安全风险，例如当 AI 生成的代码包含未被发现的漏洞时。为了帮助衡量这一风险，我们为 SeCodePLT 做出了贡献——这是一个基于近六千个样本构建的新 benchmark，为评估 AI 编码 agent 设立了新标准，能够在漏洞大规模部署之前识别它们。

但仅靠 benchmark 无法捕捉现实世界使用的复杂性。为了理解 agentic 系统在真实部署场景中的行为，我们与 Gray Swan AI 合作，开展了迄今为止最大规模的公开红队竞赛。在超过 40 个现实场景中，2000 名参与者触发了超过 60,000 次策略违规——这提供了具体证据，表明防护措施在哪些方面可能被削弱，以及需要采取什么措施来加强它们。

我们将在与 AI 安全中心共同主办的 Agent 安全小组讨论中讨论确保可靠和安全采用 AI 的挑战。

理解新兴的失控风险

除了 AI 被滥用的可能性之外，还有模型本身以非预期方式行为的风险。随着能力提升，对日益自主的 AI 系统保持控制必须成为核心关注点。在 AISI，我们正在进行世界领先的研究，以更好地理解这种新型风险并开发缓解措施。

我们开发了 RepliBench，这是一个专门的 benchmark，用于追踪 AI 模型实现自我复制所需的能力，例如获取资源和窃取自身模型权重。它包含 20 个 agent 评估，涵盖 65 个任务，探索复制相关行为可能出现的条件。我们还设计了一个社交欺骗游戏，用于衡量 AI 模型在追求长期目标时参与欺骗行为的能力。

最后，控制先进的 AI 系统可能需要更好地理解它们的工作原理。我们正在努力窥探神经网络这个“黑箱”的内部，以便更可靠地预测和引导它们的行为。稀疏自编码器（SAE）是一种流行的工具，用于将网络分解为孤立、可理解的特征——但我们称之为“特征吸收”的现象可能会阻碍这一过程。我们将展示关于特征吸收的影响的工作，并概述一些缓解措施。我们还将在 NeurIPS 2025 的机制可解释性研讨会上展示一个新框架，该框架借鉴科学哲学，以更好地理解 AI 模型的内部工作原理。

如果您今年将参加 NeurIPS，可以在 1343 号展位找到我们，我们很乐意与您讨论我们的研究。您可以在此处查看展位的日程安排，包括我们团队的指定见面会时间：点击这里。我们期待在那里与您相见！