一声棒喝,本不立文字
偏要著録,已是二义

twitter-trending-ai

@jukan05 为什么 xAI 把 220,000 块 GPU 的集群交给 Anthropic?技术…

@jukan05 Why did xAI hand over a 220,000-GPU cluster to Anthropic? The technica…

二〇二六年五月九日 · 英文原文

Mirae Asset Securities 2026年5月8日文章称,xAI将孟菲斯Colossus 1的约220,000块H100/H200/GB200混合GPU租给Anthropic用于inference,原因包括异构cluster训练存在straggler effect、NCCL latency和GB200 power smoothing问题,MFU约11%;租赁按约2.60美元/GPU-hour估算,年收入约5–6亿美元。

为什么 xAI 要把一个 220,000-GPU cluster 交给 Anthropic?

xAI 决定将 Colossus 1 整体交给 Anthropic,其技术背景比表面看起来更有意思。xAI 在孟菲斯的 Colossus 1 data center 部署了超过 220,000 块 NVIDIA GPU。其中,估计约 150,000 块是 H100,50,000 块是 H200,20,000 块是 GB200。换句话说,三代不同的 silicon 被混在同一个 cluster 里——这是一种“异构架构”。

然而,据熟悉该配置的工程师称,对于 distributed training(分布式训练)来说,这种配置几乎是一场灾难。在 distributed training 中,100,000 块 GPU 必须同时完成一个 step,cluster 才能进入下一个 step。即使 GB200 率先完成计算,剩下的 99,999 块芯片也必须等待较慢的 H100——或任何遇到 stack 相关问题的 GPU——追上来。这被称为 straggler effect(掉队者效应)。The Information 最近报道的 xAI 11% GPU 利用率(MFU:实际实现的理论 FLOPs 占比),可以视为这个问题的数字化后果。它与 Meta 和 Google 实现的 40% 以上 MFU 形成鲜明对比。

问题还不止于此。正如前面讨论过的,NVIDIA 的 NCCL 传统上是针对 ring topology(环形拓扑)优化的。在 1,000–10,000 块 GPU 规模上,它运行得很好,但一旦推进到 100,000 单元量级,数据沿 ring 走完一圈的 latency 就会变得高得难以承受。GPU 需要快速完成计算以维持高 MFU,但当它们长时间等待数据通过 network fabric 抵达时,超过一半的 silicon 会处于 idle 状态。Google 用自己的 custom topology(Google 的 OCS:Apollo/Palomar)绕开了这个 bottleneck,但按我的理解,xAI 还没有走到那一步。

再叠加 Blackwell(GB200)的“power smoothing”问题,图景就更清晰了。据曾负责 xAI multimodal pre-training 的 Zeeshan Patel 称,Blackwell GPU 的功耗拉升非常激进,以至于芯片本身内置了用于平滑供电的 hardware feature。然而,xAI 现有的软件 stack 是为 Hopper 优化的,并不了解新 hardware 的特性;当它对芯片施加不规则负载时,silicon 会发生物理性毁坏——字面意义上的熔化。这意味着 modeling stack 必须从头重写,也意味着 scaling 比大多数人想象得更困难。

把这些放在一起,会指向一个结论。xAI 判断,在 Colossus 1 上训练 frontier models 的效率根本不够,不值得继续。因此,它把自己的训练 workload 整体迁移到 Colossus 2,后者是一个 100% Blackwell 的同构 cluster。另一方面,Colossus 1 的混合架构对于 inference(推理)来说远没有那么致命,因为 inference 的并行化更宽容,于是它被整体租给了迫切需要 inference capacity 的 Anthropic。

许多观察者指出,这看起来像一个矛盾:Elon Musk 投入巨额资本建设 Colossus,却把核心资产交给了直接竞争对手 Anthropic。也有人将其解读为 xAI 因为是一个“中等水平的 frontier lab”而让步。但这些都是表层解读。

看数字,会出现另一幅图景。xAI 目前总共持有大约 550,000+ 块 GPU(按 H100-equivalent performance basis 计算),而 Colossus 1(220,000 单元)只占总可用 capacity 的约 40%。Colossus 2——完全基于 Blackwell 建设——已经投入运行并继续扩张。Elon 把全 Blackwell 的同构 cluster(Colossus 2)留给自己,把更旧、混合代际的 Colossus 1 租了出去。换句话说,他把重写 stack 的痛苦——MFU 11% 的失败——交给了 Anthropic,同时让自己继续专注于训练下一代模型。

那么,真正的要点是这个。Elon 的目标似乎是在 SpaceXAI 以 $1.75 trillion 估值 IPO 前进行定位,目前市场传出的时间最早是 6 月。SpaceXAI 现在需要的叙事是,xAI——长期以来那个“疼痛的手指”——不只是一个烧钱的 research lab,而是一家具有类似 AWS 的“neo-cloud”模式、能够以高收益出租 surplus assets 的企业。

从 cost-of-capital 的角度看,一个“AGI cash incinerator”对投资者的吸引力,远低于一个“产生现金流的 data-center landlord”。

如上所述,Colossus 1 租赁中最重要的细节是,它用于 inference,而不是 training。与 training 不同,inference 对 GPU 之间严格同步通信的要求要低得多。即使芯片是异构的,workload 也可以清晰地并行分配到它们之上。straggler effect——混合 cluster 的主要弱点——在 inference workload 中基本被中和。

此外,由 Anthropic 作为单一租户占用全部 220,000 块 GPU,多租户环境下产生的 network-switch jitter(非预期 latency)也会消失。双方的技术弱点最终几乎完全互补。

由此可以得出一个 insight。作为混合 H100/H200/GB200 的 training cluster,Colossus 1 是一个只能交付 11% MFU 的资产。然而,一旦它被交给单一 inference 客户,这个资产就变成了按约 $2.60 per GPU-hour(各类 GPU 租赁费率的加权平均)出租的现金流资产。对 xAI 来说,原本用于 training 的“cluster from hell”,在重新部署为 inference 后,变成了每年创造 $5–6 billion 收入的“golden goose”。我认为,Elon 的高明之处不在模型,而在这种资产轮换结构。

把这 $6 billion 放到 xAI 的 income statement 里,其分量就更清楚了。将 xAI 1Q26 的 net loss 年化,约为每年 $6 billion 亏损。换句话说,把 Colossus 1 租给 Anthropic 带来的 $5–6 billion 年收入,几乎完美对冲了 xAI 的亏损数字。这一笔交易实际上把 xAI 拉到了 break-even。

在 SpaceXAI IPO 前,这构成了一条核心的财务防线。从 cost-of-capital 的角度看,如果形象从“烧钱的 research lab”转变为“每年稳定印出 $6 billion 的 infrastructure tollgate”,整个发行的基调都可能改变。

(2026 年 5 月 8 日,Mirae Asset Securities)

译自 twitter-trending-ai · 录于 二〇二六年五月九日