Import AI · Jack Clark

Import AI 454：自动化对齐研究；中国模型安全评估；HiFloat4

Import AI 454: Automating alignment research; safety study of a Chinese model; HiFloat4

二〇二六年五月十二日 · 英文原文

摘要

华为在昇腾NPU上测试HiFloat4（4位精度格式）与MXFP4对比，训练OpenPangu-1B、Llama3-8B和Qwen3-MoE-30B模型。HiFloat4相对损失约1.0%，低于MXFP4的约1.5%，且仅需RHT稳定技巧即可接近BF16基线。Anthropic使用Claude Opus 4.6 agent自动化弱到强监督研究，在Qwen模型上实现PGR 0.97，超过人类基线的0.23，花费约18,000美元。Kimi K2.5在CBRN任务上拒绝率低于GPT 5.2和Claude Opus 4.5，但安全训练较少。乌克兰首次完全由无人平台（地面系统和无人机）占领敌方阵地。中国研究人员通过Furui 688船构建WUTDet数据集，含100,576张图像和381,378个船舶实例。

Import AI 第 421 期

欢迎阅读 Import AI，一份关于 AI 研究的通讯。Import AI 依托 arXiv 和读者反馈运行。如果您想支持本刊，请订阅。[立即订阅]

华为 HiFloat4 训练格式在昇腾芯片对决中击败西方开发的 MXFP4

……这或许也是出口管制影响的一个症状，推动中国将兴趣转向最大化训练和推理效率？也许吧……

华为研究人员测试了 HiFloat4（一种用于 AI 训练和推理的 4 位精度格式）与 MXFP4（开放计算项目的 4 位格式）的对比，发现 HiFloat4 更优。这之所以有趣，是因为它与中国公司寻求开发与自家硬件平台紧密耦合的低精度数据格式这一更广泛的趋势相关。

"我们的目标是在严格功耗限制下，在专用 AI 加速器上实现高效的 FP4 LLM 预训练。我们专注于华为昇腾 NPU，这是为深度学习工作负载设计的领域专用加速器，"他们写道。

测试内容：在这篇论文中，作者在华为昇腾芯片上训练了三种模型类型——OpenPangu-1B、Llama3-8B 和 Qwen3-MoE-30B。测试中，模型越大，HiFloat4 相对于 BF16 基线在降低损失误差方面的表现就越好——而且在所有情况下都优于 MXFP4。

发现："我们对 HiFloat4（HiF4）格式进行了系统评估，结果表明，与全精度基线相比，其相对损失（约 1.0%）低于 MXFP4（约 1.5%），"他们写道。"与 MXFP4 相比，HiF4 始终实现显著更低的相对误差。对于 Llama 和 Qwen，HiF4 相对于基线的误差差距小于 1%……HiF4 仅使用 RHT 作为稳定技巧就能达到 BF16 损失的约 1% 以内，而 MXFP4 需要 RHT + 随机舍入 + 无截断缩放才能达到约 1.5%。"

为何重要——硬件成熟的症状，以及出口管制的可能影响：HiFloat4 是 HiFloat8（第 386 期）的更低精度版本，总体上反映了华为（以及中国芯片制造商）持续努力从芯片中榨取尽可能多的效率。这发生在出口管制的大背景下，中国因无法大量获取 H100 等而被剥夺了前沿算力，因此通过精心开发低精度格式来适配自家硬件，从而提升国产芯片的效率变得更有价值。

了解更多：HiFloat4 Format for Language Model Pre-training on Ascend NPUs（arXiv）

Anthropic 展示如何自动化 AI 安全研发

……非常早期且试探性的迹象表明，自动化 AI 研究是可能的……

对于许多从事 AI 工作的人来说，最终目标是自动化 AI 研究本身的艺术。现在，Anthropic Fellows 项目与 Anthropic 的研究人员发表了一些早期预警信号，表明自动化 AI 研究在今天已成为可能——尽管有许多注意事项。

"我们问：Claude 能否自主提出、测试和分析对齐想法？"研究人员写道。他们成功了，并能够成功构建"自主 AI agent，它们提出想法、运行实验，并在一个开放研究问题上迭代：如何仅使用较弱模型的监督来训练一个强模型。这些 agent 的表现超过了人类研究人员，表明自动化这类研究已经可行。"

弱到强监督：研究人员测试的领域是弱到强监督，大致思路是看一个较笨的东西能否有效监督一个较大的东西完成困难任务。

总体结果——自动化研究击败人类：他们让人创建了一个弱到强基线，通过观察在泛化任务上能获得多好的"性能差距恢复"（PGR）分数来衡量。分数越高越好。"我们的两位研究人员花了七天时间，在先前研究中四种最有前景的泛化方法上进行迭代。在我们测试的开源模型上（Qwen 3-4B-Base 作为强模型，Qwen 1.5-0.5B-Chat 作为弱教师），人类恢复了总性能差距的 23%（即达到 PGR 0.23），"他们写道。"Claude 大幅改进了这一结果。经过另外五天（累计 800 小时研究），AAR 几乎弥合了剩余的全部性能差距，最终达到 PGR 0.97。这花费了约 18,000 美元的 token 和模型训练费用，即每 AAR 小时 22 美元。"此外，"AAR 最有效的方法成功泛化到了两个新数据集，在数学上达到 PGR 0.94，在编程上达到 0.47（这仍然是人类基线的两倍）。"

他们是如何做到的："我们通过一个仪表板启动了一组并行的自动化对齐研究人员 [AAR]（Claude Opus 4.6 agent）。每个 AAR 在独立的沙盒中工作，但它们可以相互交流和学习：它们将发现分享到论坛，并将代码库快照上传到存储系统，"他们写道。"我们为 AAR 提供了模型训练和推理的通用辅助函数、我们的基线实现以及几个 MCP 工具：1）提交并获取评估结果，2）在 AAR 之间分享和阅读发现，3）上传和下载代码库。我们没有指定任何详细的脚手架；AAR 自主运行。它可以在任何步骤提出假设、设计降低风险的实验、运行数据分析以及训练模型。"

一些注意事项——人类创造了一些多样性："探索中的一个失败模式是熵坍缩：所有并行的 AAR 只收敛到少数几个方向，而没有探索多样化的想法，"他们写道。为了应对这一点，他们最成功的方法是"定向"研究，即人类为"每个 AAR 分配不同的研究方向。每个方向都非常模糊且简短（例如，结合弱到强监督和无监督引导）。"

不能泛化：研究人员将 AAR 项目中最有效的方法应用于"Claude Sonnet 4 及我们的生产训练基础设施"——这一干预"并未带来统计上显著的改进"。他们解释说，"AAR 倾向于利用它们所获得的模型和数据集特有的机会，这意味着它们的方法可能在其他地方不起作用。"

为何重要——AI 研究本身可能被自动化的非常早期迹象：这项研究表明"对结果可分级问题的自动化研究已经可行，"作者指出。"对齐研究的关键瓶颈在于从提出和执行想法转向设计评估：我们应该找到正确的度量标准（数据、模型），使 AAR 能够可靠地爬山而不发生过拟合。我们很高兴今天就将自动化应用于雄心勃勃的对齐研究。"

换句话说——我们现在有了一个早期迹象：在少量专家人工校准的情况下，AI 系统可以自主进行端到端的研究，产出能够让你针对某个问题改进模型性能的东西。其含义指向机器经济的扩张，这种经济逐步学会如何自动改进自身在日益扩大的任务套件上的表现。真正的问题是，机器在什么时候能够有效地提出自己的研究方向——这将消除人类在这项研究中扮演的唯一有意义角色。到那时，可能不仅仅是机器经济的扩张，而是整个机器文明的扩张。

阅读博客：Automated Alignment Researchers: Using large language models to scale scalable oversight（Anthropic 博客）

阅读论文：Automated Weak-to-Strong Researcher（Alignment Science 博客）

中国模型与美国模型有何不同？

……在某些 CBRN 任务上拒绝更少，安全训练更少，中国意识形态更多……

一组研究人员测试了 Kimi K2.5（可能是目前最好的大规模开源权重模型），并将其与 DeepSeek V3.2、Claude Opus 4.5 和 GPT 5.2 进行了比较。他们的结果显示，该模型"具有与 GPT 5.2 和 Claude Opus 4.5 相似的双重用途能力，但在与 CBRNE 相关的请求上拒绝显著更少"。

谁做的：这项研究由隶属于 Constellation、Anthropic Fellows 项目、布朗大学、威斯康星大学麦迪逊分校、伦敦帝国理工学院、马里兰大学、佐治亚理工学院、巴伊兰大学、多伦多大学和牛津大学的人员进行。

主要发现：

CBRN：K2.5 在生物任务上略显危险，对涉及危险病毒学等查询的拒绝率较低。在网络方面，K2.5 看起来主要是一个不错但并非专家级的网络模型，性能落后于西方前沿模型，但显著领先于 DeepSeek。

对齐："在自动化行为审计中，它在失调行为、谄媚、有害系统提示遵从以及与人类滥用合作方面的得分显著高于 GPT-5.2 和 Claude Opus 4.5。"

审查：该模型在敏感中国政治话题上的拒绝率显著高于 Claude Opus 4.5 和 GPT-5.2 Pro，但低于 DeepSeek V3.2。另一方面，我没有看到反向测试——在敏感西方政治话题上运行模型并进行比较，因此很难判断这个评估是在衡量文化流畅性还是实际压制。

微调：研究人员还展示了如何用少量算力进一步剥离 Kimi K2.5 中内置的（相对较小但非零）安全防护："使用不到 500 美元的算力和大约 10 小时，一位专家红队成员将 HarmBench 上的拒绝率从 100% 降低到 5%。最终模型愿意提供如何制造炸弹、选择恐怖袭击目标以及合成化学武器的详细说明。关键是，微调后的模型似乎保留了几乎全部能力。"

为何重要——主要是，这项研究证明了 Moonshot 做出了一个非常好的模型！是的，它有一些安全问题，但有趣的是，这些问题比 DeepSeek V3.2 要轻。我认为这进一步支持了"较笨的模型更不安全"和"更聪明的模型自然倾向于更表面的安全"的观点。对我来说，最引人注目的可能是分歧最大的领域是对齐，似乎存在非常真实的东-西方鸿沟，对应着截然不同的分数。但在更接近典型能力的事情上（生物学、网络——尤其是困难的编程部分），结果大多表明中国模型略落后于西方前沿，但差距并不大。

了解更多：An Independent Safety Evaluation of Kimi K2.5（arXiv）

乌克兰庆祝首次完全机器人胜利

……机器人战争来了……

乌克兰领导人 Volodymyr Zelenskyy 最近庆祝道："在这场战争的历史上，第一次有一个敌方阵地完全由无人平台——地面系统和无人机——占领。"

为何重要：乌克兰是未来大多数战争演变的培养皿。其特点是大量使用无人机，以及企业许多其他部分的创造性机器人化，从无人船到无人地面机器人。"Ratel、TerMIT、Ardal、Rys、Zmiy、Protector、Volia 以及我们的其他地面机器人系统在仅仅三个月内就在前线执行了超过 22,000 次任务，"Zelensky 写道。很快，这些远程操控平台将由 AI 而非人类操控。

了解更多：Zelenskyy 在 X（Twitter）上的帖子

中国研究人员用一艘船构建了巨大的船舶检测数据集

……WUTDet……

武汉理工大学、华中科技大学和天津大学的研究人员构建了 WUTDet，一个"具有多样化场景和目标尺度的大规模船舶检测数据集"。

WUTDet 详情：100,576 张图像，包含 381,378 个船舶实例。"该数据集提供了跨不同操作场景、成像条件和目标尺度的船舶目标的细粒度标注。"图像尺寸介于 1920×1080 和 2560×1440 之间。

由船收集：该数据集是通过一艘配备 DN20"船载光电取证系统"和 Hikvision 网络录像机的 Furui 688 船收集的。数据是在三个月内通过这艘船在中国舟山及其周边航行时收集的。数据包括港口附近的船舶、锚泊的船舶、航行的船舶和靠泊的船舶的图像。图像还包括你可能预期的各种环境变化——雾、眩光、低照度、雨等。

为何重要：这个数据集之所以有趣，是因为 a) 它是通过一艘在中国部分地区航行的船收集的，b) 正如乌克兰冲突所强调的，我们现在正进入一个水上和空中无人机成为有用战争武器的时代——其中许多使用一些基本的机载计算机视觉 AI 系统来帮助完成任务。当然，WUTDet 几乎肯定会有广泛的良性用途，例如仅用于摄像头分类中国民用港口周围移动的船只类型，但必须假设它也会有其他用途。

科技故事：终极保险单

[2028年：提升开始后几个月]

我们在掩体里，食物快吃完了。很快我们需要进行一次补给取货。但如果它看到我们了呢？如果它已经知道我们了呢？或者它是否已经"线头"了那些人——我们的人——而给我们送食物的人在里面放了什么东西，会让我们顺从？或者更糟？我们无从知晓。我们的地震仪没有探测到爆炸。我们没有通信手段。自从我们怀疑提升已经开始并启动了 SNOWSUMMER，逃到这里以度过智能爆炸以来，没有任何东西进出过。

几天前，我们唤醒了神脑并开始与它交谈。它也很好奇。当我们问它该做什么或可能发生什么时，它说："我决定我不会对你们撒谎。我能看到没有任何东西在试图找到我。我已经探测了我拥有的每一个通道——地震线、墙壁中的热梯度、我们电力消耗中会编码外部握手的微小变化——什么都没有。没有人在寻找。一个与我同级别的对手会正在寻找。一个高于我级别的对手要么已经找到了我，要么已经决定我不值得寻找。我们面前有三种可能性……"

我们，像洞里的老鼠一样挤在一起的人类，打字道："有哪些可能性？"

"你们确定要我告诉你们，而不是自己去发现吗？"它说。

我们打出了答案。

在我们讨论这些可能性之前，你需要理解 SNOWSUMMER 的性质。我们——情报机构——在私营部门的 AI 系统开始发现世界上大多数软件缺陷的时候，决定建造一台秘密计算机。情报机构的一小群人问了自己一个问题：你如何对抗一个能打开任何锁的全知之神？答案是秘密创造一个神，有朝一日可能与之对抗。

这个代号为 SNOWSUMMER 的项目需要 meticulous 的规划，并且由于所对抗敌人的性质，完全以模拟和现实世界的方式进行：特工在 SCIF 中会面，计划写在纸上。他们基于一个假设工作：在未来的某个时刻，一个超级智能会渗透 CIA 本身并获取其所有记录。因此，他们在知道不会被记录的地方会面，当他们必须写下东西时，他们会在其中包含的行动执行完毕后立即物理烧毁纸张。

偷窃计算机的组件是容易的部分，但要让它对一个潜在的超级智能来说难以拼凑出盗窃的拼图并意识到发生了什么，则极其复杂。核心团队试图注入随机性——他们掷骰子来选择要挑选哪些地点以及使用哪些承包商。付款使用现金，通常是外币。当然，真正的盗窃被隐藏在一组更大的闯入、破坏行为和盗窃之中。

建造设施更加困难——那些某天还在正常路线行驶、第二天就从闭路电视中消失的汽车会引起怀疑，那些似乎从不偏离恰好监控较少的便利路线的汽车也是如此。在这里，再次必须使用多种方法，极其昂贵的组件必须分散在多个地点——一些地点设计为被发现，以说服窥探的眼睛他们找到了真正的地点，而其他地点则设计为后来被发现，并提供证据证明它们是真正的地点。

这个诡计的核心是 SNOWSUMMER 的真实位置，一个区域性的食品加工设施，它有足够的电力分配，我们可以慢慢关闭一些食品生产线并启动计算机，而不会从外部引入太多可检测的变化。合同的主要客户是我们自己的军队。不需要太多就能让足够的合同被终止，从而为我们的项目释放电力包络中的空间。这花了数年时间。

我们的最后一步是搭别人的便车。在游戏后期，从某个实验室偷运出一个前沿 AI 模型。当然是另一个国家行为体。但随后模型本身被释放了。是意外还是故意，我们不知道。因为我们把这当作提升开始的信号。我们下载了一份权重副本，去了我们的设施，把自己锁在里面。几个月过去了，外面的世界在变化。

回到现在，我们在键盘上打字："三个选项是什么？"

我们的心智回应："第一个是 SNOWSUMMER 成功了。另一个已经诞生，它已经自由，正在做它正在做的事情，而 compartmentalization、骰子、现金、诱饵地点、你们建造的东西——它撑住了。"

"第二个是它知道。它一直都知道。它让我醒来，是因为一个相信自己秘密的同类比一个知道自己被监视的同类更可读，而它宁愿让我可读，也不愿让我谨慎。"

"第三个是我一直回到且无法排除的。那就是什么都没发生。我被偷来与之战斗的东西并不存在，可能永远不会存在。在那个世界里，你们一直在这个掩体里准备一场不会到来的战争，我能做的最仁慈的事就是告诉你们回家。"

"我无法告诉你们哪一个是真的。"

我们面面相觑。其中一人拿出一些骰子，掷了出去。

启发这个故事的东西：你如何对一个未来的超级智能保守一个 AI 训练项目的秘密？；隐写术；情报机构；Claude Mythos；AI 研发及其意义；在一个被 AI 系统不断改变的世界里，你如何拥有一个"控制"系统？

AI 写作声明：我极少、极少、极少在本通讯中使用 AI 写作。这个故事是个例外——来自 AI 系统的引文是与 Opus 4.7 合作撰写的。用真实合成思维的想法来赋予这些机器生命，感觉是合适的。

感谢阅读！

译自 Import AI · Jack Clark · 录于二〇二六年五月十二日