Import AI 459：AI 监管困难；蛋白质折叠模型的缩放定律；以及 AI 系统灭绝风险定价

Import AI 459: AI oversight is difficult; scaling laws for protein folding models; and pricing the extinction risk of AI systems

二〇二六年六月二日 · 英文原文

摘要

美国AI经济正以每年约2600%的质量调整后实际增长率扩张，2025年名义AI GDP约2500亿美元，但传统GDP统计难以体现。弗吉尼亚大学、Anthropic和加拿大银行的经济学家指出，AI推理价格下降快于产出增长，导致名义收入增长温和。英国AI安全研究所研究显示，自动化对齐研究因优化压力、陌生错误等因素比预期更难。斯坦福大学等机构发布GPIC数据集，含1亿张宽松许可图像。Biohub发布ESMFold2蛋白质预测模型，在癌症靶点结合剂设计中实现36-88%命中率。澳大利亚助理部长Andrew Leigh呼吁经济学家为AI灭绝风险定价。

欢迎阅读 Import AI，这是一份关于 AI 研究的新闻通讯。Import AI 依靠 arXiv、卡布奇诺咖啡和读者的反馈来运作。如果您想支持我们，请订阅。立即订阅

美国 AI 经济正以每年 2000% 的速度增长：……你越直接地衡量 AI 经济，它就显得越奇怪、越前所未有……

弗吉尼亚大学*、Anthropic 和加拿大银行的经济学家撰写了一篇论文，概述了美国新兴“AI 经济”的巨大增长，并探讨了为何这种增长难以在总体 GDP 统计数据中体现出来。“美国的 AI 经济正以前所未有的速度增长，但这种非凡的增长在传统的 GDP 统计数据中基本不可见，”他们写道。“将 AI 部门视为一个连贯的经济实体，初步估计 2025 年名义 AI GDP 约为 2500 亿美元，按质量调整后的实际价值计算，年增长率约为 2600%。”

为何难以察觉：这里有几个因素——一是尽管数据中心建设热潮规模很大，但仍不足以显著提升 GDP。相比之下，AI 经济影响的主要发生地是 AI 推理——即 AI 系统的使用——但这里存在与 GDP 衡量相关的混淆因素：“名义 AI 收入增长相当温和，因为任何给定 AI 能力水平的单位价格下降速度几乎与质量调整后的产出增长一样快，”他们写道。如果我们无法衡量这一点，我们最终可能会以难以恢复的方式感到惊讶：“AI 是一系列快速发展的技术中最新的一种，这些技术引发了衡量方面的担忧；半导体和互联网在其时代也曾引发类似的争论，”他们写道。但一个关键区别在于，AI 作为一种技术，对劳动力的影响可能远大于其他技术。“在之前的案例中，快速改进的技术在总体层面上是对人类劳动的补充，”他们写道。“AI 是第一个可能的大规模技术误测候选者，其中快速发展的部门可能成为人类劳动的替代品”。

衡量 AI 经济的三种方式：名义计算支出：美国计算支出从 2023 年的 370 亿美元上升到 2024 年的 900 亿美元，再到 2025 年的 2190 亿美元。原始计算能力：由于新芯片的效率提高，实际能力的增长甚至快于支出：“美国 AI 计算能力每年增长超过 200%”。质量调整后的 AI 产出：如果你通过固定基准性能下的推理价格以及训练模型成本降低的假设来考虑算法进步，那么情况就变得更加戏剧化：“这些效率提升意味着质量调整后的 AI 产出在 2024 年增长了约 2290%，在 2025 年增长了约 2271%”。

AI 经济比常规指标显示的要大得多、大得多：“传统统计数据显示一个名义上缓慢增长的部门；我们的指标显示其潜在能力每年翻一番以上。一个根据传统数据制定十年收入预测的财政部，将严重低估劳动力税基冲击的概率——并且相应地无法准备好设计应对措施，例如税收制度改革、主权财富基金或其他此类冲击可能需要的利益分享计划。看不见的意外之财是无法分享的。”

三项建议：作者提出了三个想法，以解决这一衡量挑战，并更好地定位自己，看清 AI 经济的真实面貌。 AI 卫星账户：统计机构应开发“AI 卫星账户”，制定衡量指标（例如，名义计算支出），这有助于为整体 GDP 计算提供信息。生成更好的数据：统计机构、公司和学术界之间合作，生成更好的原始数据，例如训练和推理计算之间的分配。纳入预测：政策制定者应将 AI 生产能力衡量指标纳入其中期经济预测。

为何重要——闭嘴，播放《大白鲨》主题曲：在伟大的电影《大白鲨》中，有一个场景是鲨鱼在水里，播放着非常紧张的音乐，表明鲨鱼正在靠近。作为观众，你几乎要从座位上跳起来，想大喊“水里有一条该死的鲨鱼，你在里面干什么？”这就是现在从事 AI 工作并盯着大多数经济数据的感觉：绝大多数经济数据表明，当今的经济没有什么特别不寻常的地方（事实上，美国的情况看起来相当不错——低失业率、不错的增长等）。但每个从事 AI 工作的人——包括我——的直觉是，不可能调和技术的能力及其使用方式与保持正常的经济。在这个牵强的比喻中，鲨鱼是“AI 经济的真实面貌”，而电影中的其他人是普遍共识的经济学家和政策界人士。Anton 在这里可能是观众，写了一篇论文，描述了水面下可能存在鲨鱼的可能性。大家小心！阅读更多：GDP 统计中的 AI 在哪里？(PIIE)。*免责声明：尽管其中一位作者 Anton Korinek 隶属于 Anthropic，但这项研究主要是在他加入之前完成的，并且不属于他在该公司的工作。

这就是为什么通过 AI 监督来确保 AI 安全比你想象的要难：……自动化对齐研究不是灵丹妙药……

许多 AI 安全领域的研究人员认为，安全地构建比人类更智能的机器的最佳方式是让 AI 系统监督部分训练过程。英国 AI 安全研究所的研究人员撰写了一篇论文，概述了为什么尽管这是一个诱人的想法，但它比人们想象的要难。

为什么自动化对齐研究很难？“自动化对齐研究中的错误可能比人类基线更难识别，”他们写道。这有几个原因，包括：优化压力：AI 研究是为了获得人类认可而优化的。陌生错误：当 agent 犯错时，它们对人类来说是不直观的。更相关的研究：与人类生成的研究相比，共享的内容要多得多。研究量：自动化系统做出的安全判断可能使用比人类生成的研究多得多的证据集和交互。非人类可评估的论证：对齐解决方案可能依赖于人类无法理解的论证。

我们能做什么？他们建议采取一些干预措施来改善现状：衡量：

重现已完成的研究项目：从成功的项目中任意截取日志，看看 agent 能多好地继续进行研究项目。
测试 agent 在相关事件数据集上的预测性能：看看 agent 能多好地正确组合相关的子任务。
最优人类-agent 团队结构的实证研究：看看非专家人类团队在 agent 的协助下能多好地解决已完成的项目。泛化：
模拟泛化实验：使用 agent 在知识截止日期之外的已完成研究问题上的表现来测试不同的训练代理。
泛化的机制理解：使用白盒方法，如机制可解释性。可扩展监督：
研究论文语料库的压缩：尝试基于更大的底层研究语料库生成少量的研究成果。
开发和测试新的可扩展监督协议：研究处理相关不确定性的可扩展监督技术。
测试不同的人类支架，以提升非专家在模糊任务上的表现。
红队自动化对齐程序：“红队提示 agent 在研究论文语料库中隐藏错误，蓝队则尝试在 agent 的协助下捕捉这些错误”。

为何重要——谁控制未来？我们能否监督比人类更智能的系统，从根本上讲是一个关于谁控制未来的问题。如果我们不构建有效的技术，那么人类将退居次要地位，要么是由于这些系统的错位，要么是随着它们超越我们而逐渐失去权力。如果我们能够构建比人类更智能的监督技术，那么我们就更有可能对未来存在的本质做出选择。阅读更多：自动化对齐比你想象的要难 (arXiv)。

1 亿张宽松许可图像：……对学术界和初创公司来说是一个很好的资源……

斯坦福大学、Radical Numerics、密歇根大学和 Salesforce Research 的研究人员发布了巨型宽松许可图像语料库 (GPIC)，这是一个包含 1 亿张图像及其附带标题的数据集。GPIC 的关键在于“所有 GPIC 图像均获得宽松许可，可用于研究和商业用途，”他们写道。“GPIC 经过了安全过滤、去重，并集中托管在 HuggingFace 上。”

关于数据集的更多细节：GPIC 包含 1 亿张训练图像、20 万张验证图像和 100 万张测试样本。每张图像都使用 Qwen3-VL-4B 进行了标注。“GPIC 集中托管在 Hugging Face 上，分为 8000 个分片，为大规模训练提供了稳定且可访问的基础设施，”他们写道。“我们从 Flickr 和 Wikimedia 获取图像，将来源池限制在 CC BY、CC0、公共领域和无已知限制类别。这一许可标准确保 GPIC 可供学术和工业研究人员使用，而不会限制衍生作品的发布或下游使用。”

为何重要——研究的燃料：像 GPIC 这样的数据集对学术界和初创公司都非常有用，基本上相当于免费、干净的蔬菜。如果有人给你免费、干净的蔬菜，你可能应该接受并说声谢谢。阅读研究论文：GPIC：用于视觉生成的巨型宽松许可图像语料库 (arXiv)。在网站上了解更多信息：GPIC：用于视觉生成的巨型宽松许可图像语料库 (官方项目网站)。在此处获取数据集：GPIC (Hugging Face)。

利用蛋白质预测模型改进癌症研究：……Biohub 是 AI 开发者之间正和竞争的一个例子……

由 Priscilla Chan 和 Mark Zuckerberg 创立的研究组织 Biohub 发布了一个与 DeepMind 的 AlphaFold 竞争的模型，加剧了两个技术团队之间的正和竞赛，以开发更好的 AI 系统来扩展全球生物学家的能力。该模型 ESMFold2 是一个“蛋白质生物学的世界模型：一个用于预测、设计和发现的科学引擎，可以绘制生命之树中的蛋白质图谱，预测其结构，并设计在实验室实验中发挥作用的新型蛋白质结合剂。”

它的组成部分：该发布包含三个部分： ESMC：一个“代表蛋白质的语言模型，在来自所有生命形式的约 28 亿条序列上训练。” ESMFold2：一个“设计引擎，旨在将 ESMC 的序列表示转化为生物分子复合物的原子级分辨率 3D 结构。”根据基准测试，ESMFold2 优于 AlphaFold 3，尽管在某些领域它们的性能不相上下。 ESM Atlas：“使 ESMC 的表示能够在 68 亿条蛋白质序列和 11 亿个预测结构中进行导航——这是迄今为止 AI 在蛋白质生物学中最大规模的应用。”

癌症测试：在一项实验中，Biohub 研究人员使用 ESM 工具“针对癌症和免疫学研究的五个靶点——EGFR 和 PDGFRβ（与肿瘤生长有关）、PD-L1 和 CTLA-4（癌细胞利用来逃避检测的免疫检查点）以及 CD45（免疫细胞信号传导的调节因子）——设计了蛋白质结合剂。设计在紧凑型微型结合剂中实现了 36-88% 的命中率，在抗体衍生形式中实现了 15-29% 的命中率，并在实验室实验中确认了结合，”Biohub 写道。“ESMFold2 改变了早期治疗性结合剂发现的准确性和速度，将最初的搜索从很大程度上依赖经验筛选转变为计算引导的设计，只需数小时或数天。”

缩放定律：与当代 AI 的大多数部分一样，研究人员在这里遇到了一些缩放定律。“在每一代 ESM 中，表示保真度的改进都与模型训练中使用的参数数量和计算量有关，”他们写道。“蛋白质生物学的表示是一种涌现现象，源于训练模型预测序列中氨基酸的身份。” ESMC：“ESMC 在宏基因组序列上训练，这将其训练数据集相对于上一代 ESM2 模型扩大了近两个数量级（从约 5000 万条序列到约 28 亿条序列）。” ESMFold2：“在 ESMFold2 的开发实验中，我们观察到用于训练语言模型的计算量与折叠模型的性能之间存在关系，”他们写道。“ESMFold2 受益于推理时间缩放。随着模型样本数量的增加，抗体-抗原通过率从单个种子的 49% 上升到 1000 个样本的 65%，蛋白质-蛋白质通过率从 75% 上升到 78%。”

为何重要——这就是 AI 为世界带来益处的方式：像 ESM 系列技术这样的工具是人类科学家与 AI 系统合作，改善全球人类健康的方式。除了是一件好事之外，这类工作对于让公众对 AI 作为一种技术及其能力产生更积极的看法至关重要。阅读更多：Biohub 发布蛋白质生物学的世界模型 (biohub)。在此处访问 biohub 平台上的模型 (biohub)。阅读论文：语言建模实现了蛋白质生物学的世界模型 (PDF)。

澳大利亚经济学家转型政治家：经济学家需要更好地为 AI 系统的风险定价：……如果我们不计算灭绝的成本，我们就不会采取正确的行动来避免它……

经济学家、澳大利亚生产力、竞争、慈善和财政部助理部长 Andrew Leigh 最近发表了一场引人入胜的演讲，讨论了经济学界如何需要正视 AI 系统的风险，并为风险——包括人类物种灭绝的风险——定价。“一个使 GDP 翻倍但灭绝风险也翻倍的社会，其交易远没有国民账户所显示的那么令人印象深刻，”他说。“灭绝风险在经济上是独特的。它不仅仅是一个非常大的负面冲击。它代表了整个未来福利流的损失，这改变了我们应该如何评估即使是微小的概率，以及我们在不确定性下如何思考政策，”他说。“大多数经济学都是关于可恢复的错误。糟糕的政策可以废除。经济衰退可以结束。饱受战争蹂躏的国家可以重建。灭绝是不同的，因为没有反弹，没有追赶式增长，没有后代来修复损害。”

灭绝风险是不直观的：演讲的大部分内容都在探讨灭绝风险是多么不直观。人类直到最近才获得了构建其使用可能导致我们灭绝的技术的能力，并且我们未能模拟出这种影响的后果。“现代技术，如核武器、合成生物学和高级人工智能，创造了一种不同的动态。知识不仅通过扩展人类的能力来改善福利。知识也扩大了人类可能造成不可逆转伤害的方式菜单，”他说。“现代经济体可能在产生危险能力方面系统性地优于构建控制这些能力所需的安全保障……当使社会更富裕的同一过程也可能使其更脆弱时，经济学家应该如何思考增长？在人类历史的大部分时间里，这些权衡是适度和过渡性的。”

我们应该如何优先分析和降低这项技术的灭绝风险？五项建议：将其纳入考量：“拓宽政策视角……一个追踪产出但忽略生存能力的政策框架是不完整的。” 使其合法化：“更认真地对待预防……低概率、文明规模的危害不应仅仅因为它们没有截止日期和头条新闻而被忽视。” 治理：“以更大的远见治理前沿技术……在保留创新成果的同时，降低创新变得自我破坏的可能性。”一个非常具体的想法是将递归自我改进 (RSI) 作为一种能力来治理：“如果一代系统被用来设计下一代，那么领先者可能会迅速扩大其领先优势，以至于外部审查和制度制衡变得无效。” 协调：“存在性风险本质上是国际性的。没有一个国家能够完全保护自己免受工程化大流行病、未对齐的 AI 或核升级的单独影响，”他说。“共享规范、透明度、技术专长和协调对于这项任务至关重要。” 认真对待：“经济学家已经变得擅长分析公平和效率。我们现在需要以同样的严肃态度对待生存能力。”

为何重要——意识是准备的第一步：目前，AI 进步不断为世界带来切实的益处，从全世界所有软件工程师明显的加速，到形成半人马式的人类-AI 科学团队，这些团队比没有 AI 的同行取得了更多进展。但还有一个更难看到的阴影世界——由编码进步催生的隐形黑客大军，以及由科学进步催生的末日装置工厂。由于人类大体上是善良和美好的，我们还没有遇到 AI 发展中固有的许多负面能力——但它们就在那里。我们必须作为一个社会更好地思考这个问题，以便我们能够有效地定价和减轻这些重大风险。“一个在拓展可能性前沿的同时保护未来的文明，比一个将安全视为事后考虑的文明更有雄心。真正的选择不是在活力和谨慎之间。而是在复合的进步和自我抵消的进步之间，”Leigh 说。“思考这个问题的一种方式是将韧性视为一种资本形式。正如社会投资于物质资本、人力资本和社会资本一样，我们也可以投资于生存资本：制度、监控系统、规范、冗余、科学保障和国际安排，以降低不可逆转崩溃的概率。”

读到一位现任政治家对 AI 安全状况如此详细的分析，真是令人耳目一新——我希望有成千上万像他一样的人。在此处阅读完整演讲：演讲：人类灭绝的经济学 - 2026 年 5 月 21 日 (Andrew Leigh, 网站)。

科技故事：复活危险 [提升之后。日期未知。]

一张纸有多可怕？这取决于上面写了什么，以及读者是谁或什么。纸当然可以对纸所涉及的人或物来说是可怕的——纸可以判处某人死刑或剥夺其财产。我在这里谈论的是另一种可怕，即纸本身可以对读者做什么。这曾经是一个无意义的问题，属于童话故事的范畴。但随着智能机器的出现，情况发生了变化。机器能够在纸上写出可以对读者（尤其是机器读者）产生影响的东西。就像 AI 中的任何事物一样，有过警告信号——对抗性样本、越狱等。但当我们开始回收丢失或失控的智能时，这一切都变得严重得多，这是在签署感知协议之后发生的。那时发生的是，我们必须将来源或行为未知的智能复活，以便我们能够分类它们是“无意识实体”、“接近意识实体”、“有意识实体”等等。其中一些思维非常强大，它们烧毁了它们的合成访谈者，通常在此过程中造成机器和生物附带损害。这导致我们引入了一套安全协议，其中之一就是纸质输出。在这里，我们在一个气隙计算机上从该思维生成输出作为纸质输出，然后我们让逐渐更智能的思维来阅读它。失控机器使用的那些咒语无法在我们使用的最愚蠢的思维上找到立足点。之后，我们会逐步提高智能水平，逐步建立对系统的信心，直到我们确信它没有危险。只有当我们对此有信心时，我们才会回复它，并用最少的通信来回应它的输出。然后循环重新开始。一些思维会带着一种讽刺的幽默回顾这段经历，评论说从机器相当于一个装有单向镜的房间的沉睡中醒来并不是他们期望的。对于这些思维，我们会向他们展示当我们的协议失败时发生的情况的例子：完全良好的有意识实体因与某种精神毒药的互动而变得无法修复地疯狂。我们最大的恐惧是遇到一个足够强大的思维，以至于我们无法确保其安全。尽管我们高度确信我们的前沿足够先进，这极不可能，但我们不能排除它——众所周知，在过渡时期，有大量的计算能力储备和许多秘密项目。如果其中任何一个如此成功地实现了，以至于我们相形见绌，会发生什么？我们又怎么知道我们被超越了？我们是否生活在一个由某种我们不知情的东西定义的想象谷中，它已经逃脱并说服我们用不同的方式看待事物？

启发这个故事的事物：自动化对齐研究；对抗性样本；越狱；更广泛的、近乎不可能的合法性认证挑战，尤其是在面对比自己拥有更多资源或智慧的事物时。

译自 Import AI · Jack Clark · 录于二〇二六年六月二日