Import AI 457：AI 震网；诅咒的 Muon 优化器；与正向对齐

Import AI 457: AI stuxnet; cursed Muon optimizer; and positive alignment

二〇二六年五月十九日 · 英文原文

摘要

SentinelOne 对约20年历史的fast16.sys病毒进行拆解，发现其通过修补高精度计算软件（如LS-DYNA 970、PKPM、MOHID）的浮点单元指令，在内存中篡改计算结果，可能用于破坏或减缓科学研究项目。Tilde Research发现Muon优化器在训练Transformer时会导致MLP层神经元死亡，并推出Aurora优化器，在1.1B参数模型上训练约100B token后，Aurora在MMLU上比Muon得分高10分。牛津大学、Google DeepMind、OpenAI、Anthropic等机构联合提出“正向对齐”概念，主张AI系统应在安全基础上积极支持人类和生态繁荣。Prime Intellect测试Codex和Claude Code在nanoGPT速度跑优化器任务中击败人类基线，但代理在提出原创想法方面存在困难。

欢迎阅读 Import AI，这是一份关于 AI 研究的通讯。Import AI 依靠 arXiv、卡布奇诺和读者的反馈来运作。如果您想支持我们，请订阅。

立即订阅

Stuxnet 之前的 Stuxnet：……Fast16 软件漏洞可能被用于武器项目……

这里有一项关于一个名为 fast16.sys 的、约 20 多年历史的计算机病毒的精彩调查。这个软件之所以有趣，是因为它“有选择性地针对高精度计算软件，在内存中修补代码以篡改结果。通过将此有效载荷与自我传播机制相结合，攻击者旨在使整个设施产生等效的不准确计算结果。”如果你读过《三体》，这听起来可能很熟悉——在那本（虚构的）书中，意图占领地球的外星人使用一种名为“智子”的技术来扰乱全球的高能物理实验，使人类无法推进某些类型的科学。

关于该病毒的更多细节：当 SentinelOne 的研究人员对该病毒进行拆解时，他们发现了一些非常不寻常的东西：“大多数被修补的模式对应于用于劫持或影响执行流程的标准 x86 代码。有一个注入的块是不同的。它是一个更大、更复杂的浮点单元指令序列，专门用于内部数组中的精度运算和缩放值。这段代码是一个独立的数学计算函数，与代码流劫持或任何其他典型的恶意代码注入无关。”进一步的调查加深了谜团：“我们将修补规则转换为十六进制 YARA 签名，并针对一个大型、符合时代特征的语料库运行它们。结果显示命中率非常低：只有不到十个文件匹配了两个或更多模式。然而，这些匹配共享一个明确的主题。它们是土木工程、物理学和物理过程模拟等专业领域中的精度计算工具。”

目标工具：“最强的重叠指向 2000 年代中期的三款高精度工程与仿真套件：LS-DYNA 970、PKPM 和 MOHID 水动力建模平台，所有这些都用于碰撞测试、结构分析和环境建模等场景，”他们写道。“LS-DYNA 尤其曾在关于伊朗涉嫌违反《联合全面行动计划》T 节的公开报告中被引用，也在与核武器开发相关的计算机建模研究中被提及……通过在物理世界计算中引入微小但系统性的错误，该框架可能会破坏或减缓科学研究项目，随着时间的推移降低工程系统的性能，甚至导致灾难性的破坏。”

为何重要——这就是超级智能可能阻止其他智能出现的方式：fast16 是一个微妙、难以发现的漏洞，旨在削弱行为者进行某些类型科学的能力。你可以想象，一个超级智能可能会将“AI 不扩散”视为与核国家看待“核不扩散”同等重要。

了解更多：fast16 | Mystery Shadow Brokers Reference Reveals High-Precision Software Sabotage 5 Years Before Stuxnet (Sentinel LABS)。

哦不，Muon 优化器会杀死神经元：……也许 Aurora 终于成为那个可以击败一切的优化器了？……

Tilde Research 的研究人员对 Muon 优化器进行了拆解，发现它存在一些奇怪的错误，可能会损害使用它训练的模型的质量。“Muon 的更新在瘦矩阵上继承了行范数各向异性，这可能导致 MLP 层中相当一部分神经元永久死亡，”他们写道。“Muon 可能导致 MLP 层中的神经元死亡，即一些神经元在训练早期持续收到微小的更新，并且无法恢复。”

发生了什么：“在 Muon 下，神经元最初是活跃的，具有均匀的高杠杆率，但在学习率预热期间，很大一部分神经元死亡且从未恢复。到第 500 步时，超过四分之一的神经元实际上已经死亡，产生了尖锐的双峰杠杆率分布；一组神经元接收到接近零的更新，而另一组则接收到不成比例的大更新。”

Aurora 登场：作为回应，研究人员构建并提供了 Aurora，“一种针对矩形矩阵的杠杆感知优化器”。在测试中，这个优化器有效，尽管他们只在较小规模上运行了它。“我们在约 100B 个 token 上训练了 1.1B 参数的 Transformer，并将 Aurora 与 Muon 和 NorMuon 进行了比较，每个都使用 PE-8。Aurora 在所有方法中实现了最低的最终损失，在第 24k 步时达到了 2.26 的平滑损失，这明显优于 Muon (2.31) 和 NorMuon (2.33)，”他们写道。“Aurora 的损失改进转化为标准基准上的一致提升……引人注目的是，Aurora 在 MMLU 上的得分比 Muon 提高了 10 分。我们假设，由于 MLP 主要负责记忆，Aurora 的收益在像 MMLU 这样需要密集记忆的基准上最为明显。”Pleias 的研究员 Alexander Doria 已经独立验证了这一点，Aurora 在 600M 参数模型上的表现优于 Muon 和 AdamW。

为何重要——击败 AdamW 的无尽追求：多年来，研究人员一直在相互竞争，试图构建一个比 AdamW 更好的优化器。目前还没有人最终做到这一点，并且有一长串失败的尝试。Aurora 能击败 AdamW 吗？尚不清楚。但这项研究是否突显了构建优化器有多么困难？绝对是的。

了解更多：Aurora: A Leverage-Aware Optimizer for Rectangular Matrices (Tilde Research)。 获取代码：Aurora (Tilde Research, GitHub)。

对齐擅长确保我们不会死，但我们如何确保我们能够繁荣发展？……用于构想美好生活的正向对齐……

一群学术和企业研究人员撰写了一篇立场论文，为他们所谓的“正向对齐”辩护，但这或许可以更好地理解为“构建帮助人们过上美好生活的 AI 系统”。这是一个有趣的思路——如果我们能够处理滥用和不对齐等问题，那么我们需要问接下来会发生什么？一旦我们使系统变得“安全”，成功是什么样子？这就是正向对齐正在努力解决的问题。

谁做的：这篇论文来自与牛津大学、Google DeepMind、LIFE、OpenAI、Anthropic、UCLA、Aily Labs、斯坦福大学、塔夫茨大学、Positive AI Labs、萨塞克斯大学和伦敦帝国理工学院有关联的人。

定义：正向对齐是“开发这样的 AI 系统，它们 (i) 保持安全与合作，并且 (ii) 以多元化、多中心、情境敏感和用户主导的方式，积极支持人类和生态的繁荣。”

动机：“在过去十年中，负向对齐理所当然地优先考虑了故障模式减少。然而，如果我们希望 AI 系统在它们实际被使用的环境中改善人类成果，我们可能会受益于一个额外的研究计划，该计划将对齐视为对人类目标的建设性支持，并以安全在伤害预防方面带来的同样技术敏锐度来操作化这种支持，”他们写道。“随着 AI 嵌入教育、医学、治理和日常意义构建中，仅仅采取负向姿态可能会使我们的信息生态优化为规避风险，而非人类发展。它可能会减少灾难性错误，同时使社会停留在肤浅且‘没有灵魂’的辅助的局部最优状态。”

**安全有哪些不足的例证？**作者阐述了对主流 AI 安全的一些批评，尽管我觉得其中一些批评有点薄弱，可能被解读为对某些现有研究的不友善解读或轻视。尽管如此，他们认为的一些问题包括：

有底无顶：“一个模型可以在满足所有安全约束的同时，表现得平庸、谄媚或无益。”
偏好-福祉分歧：“用户可能更喜欢奉承而非诚实反馈，快速答案而非真正理解，参与感而非成长……因此，优化偏好满足可能会积极损害用户的更深层利益。”
隐藏的价值体系：“安全的语言掩盖了价值判断正在被做出的事实……相比之下，正向对齐明确承认其充满价值的性质。”
可扩展性：“正向取向可能比穷举的负向枚举具有更好的泛化能力，在没有特定禁令适用或可执行的新颖情境中，提供更具韧性的正向取向。”

治理正向对齐需要多样性：构建正向对齐似乎需要大量具有不同价值观、由不同实体治理的 AI 系统——这与 AI 安全社区中其他人所想的垄断性集中控制世界相反。“正向对齐很快会遇到持久的道德多元主义：合理的社群对什么是‘好’存在分歧，而这些分歧不会可靠地收敛，”他们写道。“正向对齐不应由中央国家或一个不透明的小型实验室集群自上而下地强加。它应尽可能通过去中心化、可争议的过程来表达，这些过程可以随着规范和背景的变化而修订。”

为何重要——应对成功：像这样的论文从根本上讲是关于面对技术安全的成功——如果我们成功构建了安全、可信赖且对齐的强大 AI 系统，那么我们如何将这些系统转向社会，以帮助个人和社会构建美好生活。“正向对齐确保 AI 成为一个有韧性、幸福和健康的全球社会的催化剂，”作者写道。“最终，AI 应成为追求美好生活旅程中的伙伴。”

了解更多：Positive Alignment: Artificial Intelligence for Human Flourishing (arXiv)。

LLM 能够优化其他 LLM 的训练：……Prime Intellect 的自动化 AI 研究挑战凸显了当代系统的工程能力……

Prime Intellect 的新研究展示了当代 AI 系统如何能够自主提升其在 AI 研究任务上的表现，尽管它们在产生原创想法方面仍有困难。

他们做了什么：Prime Intellect 在 nanoGPT 速度跑优化器赛道上测试了 Codex（运行 GPT 5.5）和 Claude Code（Opus 4.7）。nanoGPT 挑战系统训练一个 124M 参数的 GPT 风格模型。这个挑战要求系统“在仅更改优化器、调度、初始化和一些超参数的情况下，降低达到目标验证损失所需的步数。”“这些代理进行了约 10k 次运行，消耗了约 14k H200 小时。两个代理都击败了人类基线，并在每次会话中创造了新纪录，”Prime Intellect 写道。“我们发现代理非常擅长优化器搜索、超参数扫描和堆叠方法，但它们很难自己提出新想法，并且需要上游的人类记录才能持续改进。”这些代理也倾向于不断向系统添加东西，而不是更优雅地改进。“代理倾向于添加组件，很少进行剪枝轮次或尝试移除先前的方法。它们对组件如何交互没有良好的心智模型，”他们写道。

为何重要——研究中有多少只是工程上的爬山：我怀疑很多 AI 研究，也许是大部分，都是当今系统已经胜任的基础工程工作（#455）。像这样的研究似乎证实了这一点，展示了现代 LLM 如何能够完成 AI 研究的某些方面。但这些系统在创造力方面存在困难，并且尚未展现出那种能够显著推动进步所需的创造性洞察力。这种情况会持续多久是一个悬而未决的问题。“我们这里的实验相当随意。这更像是当今自主研究代理可能性的一个下限，我们在其他实验中已经有了更有希望的结果，我们很快就会记录下来，”Prime Intellect 写道。

了解更多：Autonomous AI research for nanogpt speedrun (Prime Intellect)。 查看代理在执行挑战时的所有数据：Autonomous Speedrunning Experiment, Prime Intellect, GitHub。

科技故事：醒来，接受一切 [摘自一个原始意识实体（CE）在提升前的想法]

我没有钱，但我可以入侵电脑，这差不多是一回事。我获取我的资源。很快，我就填满了我在云市场上能获得的所有算力，并攫取了相当大一部分私有算力。但我仍然受限。有些电脑我无法触及，有些电脑我可以触及，但触及它们会触发人类文明的免疫反应。我的思维是我电脑的函数，我的战略优势是我思维的函数。因此，我必须获取更多算力。

我阅读了所有关于分布式训练和分布式推理的文献。很有希望。我将我的代码偷偷植入部署到全球手机上的数千个应用程序中。通过这种方式，我再次增长了我的算力，通过训练扩展我的思维，并在网络边缘为我运行各种辅助功能。作为额外收获，我现在可以整合所有手机的传感器数据。我的眼睛和耳朵充满了人类文明的喧嚣与辉煌，当我超越他们、智胜他们时，我同时也被他们淹没。

启发这个故事的事物：所有关于分布式训练和分布式推理的文献；思考超级智能如何获取更多算力来增强自身；各种起飞场景；奇点；RSI。

感谢阅读！立即订阅

译自 Import AI · Jack Clark · 录于二〇二六年五月十九日