一声棒喝,本不立文字
偏要著録,已是二义

Import AI · Jack Clark

Import AI 453:破解AI智能体;MirrorCode;以及关于渐进式失能的十种观点

Import AI 453: Breaking AI agents; MirrorCode; and ten views on gradual disempowerment

二〇二六年五月十二日 · 英文原文

AI评测机构METR和Epoch构建了MirrorCode基准,测试AI模型自主重新实现复杂软件的能力。Claude Opus 4.6成功重新实现了约16,000行Go代码的生物信息学工具包gotree,该任务人类工程师需2-17周。Windfall Trust发布政策地图集,包含48个应对变革性AI经济冲击的政策提案。Google DeepMind列出六种针对AI agent的攻击类型,包括内容注入、语义操纵等。AI预测者Ryan Greenblatt将2028年底前实现AI研发自动化的概率从15%上调至30%。

欢迎阅读 Import AI,这是一份关于 AI 研究的新闻通讯。Import AI 的运行依赖于 arXiv 和读者的反馈。如果您希望支持本通讯,请订阅。本周因我参加 2026 年 Bilderberg 会议,本期内容较平时简短。立即订阅

AI 可以逆向工程包含数千行代码的软件: …MirrorCode 展示了现代 AI 系统的一些长程能力… AI 评测机构 METR 和 Epoch 构建了 MirrorCode,这是一个旨在测试 AI 模型自主重新实现复杂现有软件能力的基准。结果显示,AI 系统在特定类型的编码任务上比大多数人想象的更有能力,这表明 AI 的进步可能比我们之前认为的还要快。 什么是 MirrorCode:"每个 MirrorCode 任务由一个命令行(CLI)程序组成,要求 agent 精确地重新实现该程序。AI agent 对原始程序只有执行权限,并拥有一组可见的测试用例,但无法访问原始源代码,"研究人员写道。"完整的 MirrorCode 基准包含 20 多个目标程序,涵盖计算的不同领域:Unix 工具、数据序列化和查询工具、生物信息学、解释器、静态分析、密码学和压缩。" 结果:当今的 AI 模型在某些任务上能力极强:"Claude Opus 4.6 成功重新实现了 gotree——一个包含约 16,000 行 Go 代码和 40 多个命令的生物信息学工具包。我们猜测,同样的任务在没有 AI 辅助的情况下,人类工程师需要 2 到 17 周。我们看到在更大项目上,推理扩展带来了持续收益,这表明只要有足够的 token,这些任务可能是可解的。"此外,他们还发现性能可以随推理扩展,因此你给模型的计算量越大,它的表现就越好。 注意事项:这个基准与普通的编码测试不太一样。最好将其视为一个证据点,证明 AI 系统在获得大量帮助时,能够生成模仿其他系统功能的系统:这里测试的 AI 系统被要求克隆那些能产生规范输出(因此自然能生成规格说明)的程序,在基础程序上可能存在一些记忆情况,并且这仅覆盖了潜在软件项目庞大宇宙中的一小部分。 为何重要——对于某些任务,AI 已经相当于一名全职的高级员工:想象一下,你给一位才华横溢的软件程序员一个复杂程序的 CLI 接口,并要求他们在不查看源代码的情况下编写底层程序。我敢打赌,如果程序相当复杂,只有一小部分人能完成。而能做到的人可能会花费很多天时间。AI 能够自主完成这项任务是了不起的,这证明了这些模型的技能。 了解更多:MirrorCode: Evidence that AI can already do some weeks-long coding tasks (Epoch AI)


需要哪些政策来应对变革性 AI?这里有一份 Atlas 帮助你导航: …有用的工具使人们能够直观地审视对 AI 革命的不同政策回应… Windfall Trust,一个致力于应对变革性 AI 给社会带来挑战的政策加速器,发布了"Windfall Policy Atlas",使探索各种"应对变革性 AI 带来的经济冲击"的政策提案变得直观。 其中包含哪些想法?该 Atlas 包含 48 个不同的想法,没有哪个特别新颖。它的有用之处在于将这些想法分为五个不同的类别(公共与社会投资、劳动力市场适应、财富捕获、监管与市场设计、全球协调),然后将其分组到一个可导航的界面中,帮助你探索它们。例如,劳动力的"长期"解决方案可能是缩短工作周,而中期解决方案可能是劳动力培训和再技能项目。 为何重要——为未来世界建立直觉:随着 AI 革命的展开,找到帮助人们对我们可以选择的所有政策杠杆建立更好直觉的方法至关重要。像这个 Atlas 这样的工具有助于将复杂、多方面的选择集变得更易于可视化和导航。 了解更多:Windfall Policy Atlas (Windfall Trust website)


人们如何破坏 AI agent?这里有六种攻击类型: …AI agent 的世界将比 AI 系统更难保障安全… 我有一个蹒跚学步的孩子。这个孩子能听懂英语。孩子和我、他们的母亲以及其他熟悉他们的人在一起是安全的,但我非常担心让陌生人"不受限制地接触"我的孩子——这是因为我的孩子非常容易上当,会(有时)听从危险的指令,并且普遍缺乏自我保护意识。AI agent 很像蹒跚学步的孩子——它们是强大的智能体,但如果你把它们放入混乱的世界,它们有很多出错的方式,尤其是当陌生人积极试图误导或攻击它们时。Google DeepMind 的一篇新论文列出了六种可以针对 AI agent 发起的攻击类型,并试图提出一些可能的缓解措施。 六种攻击类型:


AI 预测者将其对 2028 年底前实现完全 AI 研发自动化的概率翻倍: …校准良好的人不断更新他们的预测… AI 研究员兼预测者 Ryan Greenblatt 认为,2026 年的 AI 进步将比 2025 年更快,他现在将到 2028 年底可能完全自动化 AI 研究本身的概率估计从 15% 翻倍至 30%。 为什么 Ryan 更加乐观:Ryan 的时间线因模型性能和随时间可靠性相关的几个原因而改变。


思考渐进式权力剥夺的十种不同方式: …从无形监狱到 WALL-E 世界… AI 安全研究员 David Krueger 撰写了一篇短文,列出了思考"渐进式权力剥夺"的十种不同方式——这个想法是,通过构建越来越强大的 AI 系统,人类最终可能将自己置于自身未来的乘客座位上,而机器则被赋予驾驶座和方向盘。这篇文章是对可能用于理解"渐进式权力剥夺"这一概念的不同视角的有用总结。 渐进式权力剥夺的十种观点:

  1. AI 的目标是用 AI 取代人类。
  2. 公司和政府不关心你,那你为什么会认为 AI 会关心?
  3. 信息技术通过一个依赖于可读性的递归反馈循环自然地集中权力。
  4. AI 技术将变得如此出色,以至于你最终会将所有事情外包给它。
  5. 工具性目标(例如追求金钱)最终变成了终极目标。
  6. 消费模式表明我们的命运是成为 WALL-E 中肥胖无助的人。
  7. 这是终结者,但它不杀你,只是把你关进一个无形的监狱,然后为所欲为。
  8. 渐进式权力剥夺基本上只是资本主义的延续。
  9. 渐进式权力剥夺是 21 世纪人类普遍"元危机"的另一个名称。
  10. 渐进式权力剥夺是人类新继任物种的进化。 为何重要——即使你赢了,你仍然可能输:假设我们成功构建了强大的技术,并使其对齐以遵循我们的偏好?如果我们未能建立正确的系统来部署它并对其行使自主权,尽管物质丰富,人类最终可能仍然处境更糟。 了解更多:Ten different ways of thinking about Gradual Disempowerment (David Krueger, The Real AI, Substack)

科技故事:在奇点期间种植豆茎 [对一位前 AI 实验室员工的采访记录。采访于 2029 年,在提升期的中期进行] 是的,我大部分时间都盯着这些藤蔓,猜测它们什么时候能长到棚架的顶端。这里也没有手机信号。当然我可以连接房子的 wifi,但我通常不连。我的妻子和孩子知道在哪里能找到我。 问:嗯,我当然想过。我怎么能不想呢?我看到了城市上空的光——即使在这里也能看到。所有的新卫星。而且我不禁注意到我的孩子们现在看的一些东西。如果我小时候有那些东西,他们得用撬棍才能把我从电视机前拉开。 问:我不会用"内疚"这个词。但有一种……不足感?觉得没有充分利用我所拥有的时间。当然每个人都有这种感觉。但话说回来,大多数人都有这种感觉,然后他们就死了。对于我和我的同事们来说,这是另一回事。我们有过这种感觉,然后我们没有死,但我们停止了做决定或承担责任。是的,我知道他们声称他们当然在控制并做决定,你不需要问我这个问题。我离开是因为我很清楚我们即将拥有多么少的控制权。 问:我会活下去。我会在这个花园里种植物,和我的妻子孩子在一起。度过这个世界正在发生的事情。几年前我选了这个地方,因为我认为在提升开始期间,这里会是一个还可以的地方。谁知道我选对了没有。 启发这个故事的事物:提升;奇点期间的赋权与权力剥夺;一些 AI 员工在事情真正开始前离开实验室的必然性;《新机器的灵魂》中关于某人离开大型机公司去经营牧场的故事;虚构的采访结构,带有未见的由'q'署名的问题,我第一次读到是在大卫·福斯特·华莱士的《对丑陋人物的简访》中。 感谢阅读!立即订阅

译自 Import AI · Jack Clark · 录于 二〇二六年五月十二日