twitter-trending-ai

@jukan05 为什么 xAI 把 220,000 块 GPU 的集群交给 Anthropic？技术…

@jukan05 Why did xAI hand over a 220,000-GPU cluster to Anthropic? The technica…

二〇二六年五月九日 · 英文原文

摘要

Mirae Asset Securities 2026年5月8日文章称，xAI将孟菲斯Colossus 1的约220,000块H100/H200/GB200混合GPU租给Anthropic用于inference，原因包括异构cluster训练存在straggler effect、NCCL latency和GB200 power smoothing问题，MFU约11%；租赁按约2.60美元/GPU-hour估算，年收入约5–6亿美元。

为什么 xAI 要把一个 220,000-GPU cluster 交给 Anthropic？

xAI 决定将 Colossus 1 整体交给 Anthropic，其技术背景比表面看起来更有意思。xAI 在孟菲斯的 Colossus 1 data center 部署了超过 220,000 块 NVIDIA GPU。其中，估计约 150,000 块是 H100，50,000 块是 H200，20,000 块是 GB200。换句话说，三代不同的 silicon 被混在同一个 cluster 里——这是一种“异构架构”。

然而，据熟悉该配置的工程师称，对于 distributed training（分布式训练）来说，这种配置几乎是一场灾难。在 distributed training 中，100,000 块 GPU 必须同时完成一个 step，cluster 才能进入下一个 step。即使 GB200 率先完成计算，剩下的 99,999 块芯片也必须等待较慢的 H100——或任何遇到 stack 相关问题的 GPU——追上来。这被称为 straggler effect（掉队者效应）。The Information 最近报道的 xAI 11% GPU 利用率（MFU：实际实现的理论 FLOPs 占比），可以视为这个问题的数字化后果。它与 Meta 和 Google 实现的 40% 以上 MFU 形成鲜明对比。

问题还不止于此。正如前面讨论过的，NVIDIA 的 NCCL 传统上是针对 ring topology（环形拓扑）优化的。在 1,000–10,000 块 GPU 规模上，它运行得很好，但一旦推进到 100,000 单元量级，数据沿 ring 走完一圈的 latency 就会变得高得难以承受。GPU 需要快速完成计算以维持高 MFU，但当它们长时间等待数据通过 network fabric 抵达时，超过一半的 silicon 会处于 idle 状态。Google 用自己的 custom topology（Google 的 OCS：Apollo/Palomar）绕开了这个 bottleneck，但按我的理解，xAI 还没有走到那一步。

再叠加 Blackwell（GB200）的“power smoothing”问题，图景就更清晰了。据曾负责 xAI multimodal pre-training 的 Zeeshan Patel 称，Blackwell GPU 的功耗拉升非常激进，以至于芯片本身内置了用于平滑供电的 hardware feature。然而，xAI 现有的软件 stack 是为 Hopper 优化的，并不了解新 hardware 的特性；当它对芯片施加不规则负载时，silicon 会发生物理性毁坏——字面意义上的熔化。这意味着 modeling stack 必须从头重写，也意味着 scaling 比大多数人想象得更困难。

把这些放在一起，会指向一个结论。xAI 判断，在 Colossus 1 上训练 frontier models 的效率根本不够，不值得继续。因此，它把自己的训练 workload 整体迁移到 Colossus 2，后者是一个 100% Blackwell 的同构 cluster。另一方面，Colossus 1 的混合架构对于 inference（推理）来说远没有那么致命，因为 inference 的并行化更宽容，于是它被整体租给了迫切需要 inference capacity 的 Anthropic。

许多观察者指出，这看起来像一个矛盾：Elon Musk 投入巨额资本建设 Colossus，却把核心资产交给了直接竞争对手 Anthropic。也有人将其解读为 xAI 因为是一个“中等水平的 frontier lab”而让步。但这些都是表层解读。

看数字，会出现另一幅图景。xAI 目前总共持有大约 550,000+ 块 GPU（按 H100-equivalent performance basis 计算），而 Colossus 1（220,000 单元）只占总可用 capacity 的约 40%。Colossus 2——完全基于 Blackwell 建设——已经投入运行并继续扩张。Elon 把全 Blackwell 的同构 cluster（Colossus 2）留给自己，把更旧、混合代际的 Colossus 1 租了出去。换句话说，他把重写 stack 的痛苦——MFU 11% 的失败——交给了 Anthropic，同时让自己继续专注于训练下一代模型。

那么，真正的要点是这个。Elon 的目标似乎是在 SpaceXAI 以 $1.75 trillion 估值 IPO 前进行定位，目前市场传出的时间最早是 6 月。SpaceXAI 现在需要的叙事是，xAI——长期以来那个“疼痛的手指”——不只是一个烧钱的 research lab，而是一家具有类似 AWS 的“neo-cloud”模式、能够以高收益出租 surplus assets 的企业。

从 cost-of-capital 的角度看，一个“AGI cash incinerator”对投资者的吸引力，远低于一个“产生现金流的 data-center landlord”。

如上所述，Colossus 1 租赁中最重要的细节是，它用于 inference，而不是 training。与 training 不同，inference 对 GPU 之间严格同步通信的要求要低得多。即使芯片是异构的，workload 也可以清晰地并行分配到它们之上。straggler effect——混合 cluster 的主要弱点——在 inference workload 中基本被中和。

此外，由 Anthropic 作为单一租户占用全部 220,000 块 GPU，多租户环境下产生的 network-switch jitter（非预期 latency）也会消失。双方的技术弱点最终几乎完全互补。

由此可以得出一个 insight。作为混合 H100/H200/GB200 的 training cluster，Colossus 1 是一个只能交付 11% MFU 的资产。然而，一旦它被交给单一 inference 客户，这个资产就变成了按约 $2.60 per GPU-hour（各类 GPU 租赁费率的加权平均）出租的现金流资产。对 xAI 来说，原本用于 training 的“cluster from hell”，在重新部署为 inference 后，变成了每年创造 $5–6 billion 收入的“golden goose”。我认为，Elon 的高明之处不在模型，而在这种资产轮换结构。

把这 $6 billion 放到 xAI 的 income statement 里，其分量就更清楚了。将 xAI 1Q26 的 net loss 年化，约为每年 $6 billion 亏损。换句话说，把 Colossus 1 租给 Anthropic 带来的 $5–6 billion 年收入，几乎完美对冲了 xAI 的亏损数字。这一笔交易实际上把 xAI 拉到了 break-even。

在 SpaceXAI IPO 前，这构成了一条核心的财务防线。从 cost-of-capital 的角度看，如果形象从“烧钱的 research lab”转变为“每年稳定印出 $6 billion 的 infrastructure tollgate”，整个发行的基调都可能改变。

（2026 年 5 月 8 日，Mirae Asset Securities）

译自 twitter-trending-ai · 录于二〇二六年五月九日