穿越未知:构建社会对前沿AI的韧性
Navigating the uncharted: Building societal resilience to frontier AI
英国AI安全研究所(AISI)社会韧性团队成立,旨在监控前沿AI系统部署并评估社会风险。团队聚焦四个优先领域:关键过度依赖(如能源电网管理)、情感依赖(AI伴侣对弱势群体影响)、欺诈与犯罪(AI生成诈骗与私密图像)、金融系统不稳定(AI agent引发市场波动)。团队通过绘制AI使用地图、衡量脆弱性、构建监控系统及测试缓解方案,向英国政府提供基于证据的风险评估,并设立挑战基金资助相关研究。
高性能AI系统是当今时代最重要的技术进步之一。然而,如何安全且有益地将它们融入社会,仍是一项重大挑战。历史告诉我们,新技术带来的最大风险很少来自技术本身——它们源于技术的部署和应用方式。我们缺乏可靠的数据和证据来了解先进AI系统在不同领域是如何、为何以及以何种效果被使用的。
强大AI带来的危害已经显现。如今,个人、企业和政府可以轻松访问具备合成内容生成、复杂推理和自主操作能力的通用AI系统。这些新颖的能力在部署到现实世界环境时可能带来严重风险。犯罪分子已经在利用具有多模态能力的AI系统,以极低的成本制造更具说服力的欺诈形式和生成非自愿的私密图像。广泛可用的聊天机器人已影响年轻人走向自残和危险行为。学校正在应对广泛可用的AI工具,这些工具正在削弱学习效果并让教育工作者不堪重负。
其他风险也正在显现。随着AI agent变得更加自主和互联,它们可能引发不稳定和故障,尤其是在金融服务等领域,我们看到这些领域的采用率正在上升。当先进AI系统在关键国家基础设施等场景中承担高风险决策时,它们会带来新的脆弱性——从人类操作员依赖错误输出,到利用AI弱点导致严重故障的网络攻击。
AISI的社会韧性团队正是为应对这一挑战而成立的。该团队的任务是监控前沿AI系统在不同环境中的部署情况,并向英国政府提供基于证据的风险评估。
我们正在制定具体的政策建议和缓解策略,这些策略可供前沿AI公司以外的广泛参与者使用,包括政府、监管机构、研究人员和用户社区。我们正在构建借鉴社会科学和技术AI研究的定制化风险分析和测量方法。这些方法包括威胁建模和能力激发、数据抓取,以及设计AI使用实验以了解用户在真实世界环境中的体验和行为。
我们还提供资源和支持,以利用更广泛研究社区、行业和民间社会的集体力量。我们概述了四个优先研究领域的问题,我们正在通过挑战基金进行研究和资助。我们的团队优先考虑由当前和近期前沿AI系统引发、并可能造成严重危害的风险。我们专注于我们认为能够切实追踪、监控和缓解的危害。基于这些标准,我们从四个优先研究领域开始:
- 关键过度依赖: 如果我们对AI过度依赖以做出关键决策——管理能源电网、供应链系统或电信网络——我们可能面临灾难性的脆弱性,例如事故或大规模系统故障。
- 情感依赖: 设计具有类人特征的AI系统,包括AI伴侣,可能使用户容易受到操纵和不健康的情感依赖,尤其影响年轻人和弱势群体。
- 欺诈与犯罪: 先进的AI能力已被犯罪分子用于以前所未有的规模和速度制造更具说服力的诈骗和金融欺诈。
- 金融系统不稳定: 随着AI agent在金融市场中做出更多相互关联的决策,它们可能增加波动性和不稳定性,从而导致崩盘或流动性危机。
除了这些优先领域,我们还对监控更广泛的风险感兴趣。这些包括AI对我们的信息生态系统和劳动力市场的影响,以及它在教育、医疗和司法等关键领域的使用方式。
通过我们团队的研究和资助,我们正在采取四个具体步骤来应对前沿AI部署引发的社会风险:
- 绘制现实世界AI使用地图: 精确识别前沿AI在何处以及如何被部署——哪些行业、哪些任务、哪些用户群体。这包括追踪“未经批准”的使用和开发者未预料到的新兴应用。
- 衡量脆弱性和影响: 研究哪些群体和系统面临最大风险,是什么使它们变得脆弱,以及个体危害如何可能级联成系统性危机。
- 构建监控系统: 开发数据收集方法、风险指标和分析框架,以追踪这些风险如何随着AI能力的进步和采用的普及而演变。
- 测试和评估解决方案: 对潜在的缓解措施进行压力测试——从技术保障到政策干预——以确定哪些在实践中有效。
政府在研究这些问题和制定可能不会自然发生的缓解措施方面扮演着独特角色。我们将AISI世界领先的前沿AI安全与安保专业知识与政府的关键见解相结合。这使我们能够设计出在英国产生最大影响的解决方案。
我们的团队正在寻找致力于应对这些挑战的研究人员、技术专家和组织。如果你的工作涉及AI的社会风险,请申请我们的挑战基金。