马斯克23万GPU训练Grok-这规模让OpenAI都要颤抖

马斯克昨天在X上发了一条消息："xAI的目标是在5年内部署相当于5000万个H100的AI算力。 "5000万个H100，这什么概念？我算了一下，这相当于35个核电站的发电量才能供得起。

马斯克昨天在X上发了一条消息："xAI的目标是在5年内部署相当于5000万个H100的AI算力。"

5000万个H100，这什么概念？我算了一下，这相当于35个核电站的发电量才能供得起。

更震撼的是，马斯克现在已经在用的基础设施规模了。

现在就有23万个GPU在转

昨天看到的数据确实挺震撼的。xAI的Memphis数据中心现在运行着：

• 15万个H100 - 这是之前的主力

• 5万个H200 - 性能是H100的两倍

• 3万个GB200 - 基于最新Blackwell架构，性能是H100的5倍

按算力折算，这相当于40万个H100在同时工作。这个数字什么概念呢？OpenAI说他们年底要有"超过100万个GPU"，但按算力计算，马斯克现在已经有了。

而这只是他们的Colossus 1集群。

Colossus 2要来了

马斯克最近透露，他们正在建设第二个集群 - Colossus 2。这个集群计划部署110万个GB200和GB300。

我看到这个数字的时候，第一反应是：这还是地球上的项目吗？

按照算力计算，Colossus 2完工后，xAI将拥有相当于500-800万个H100的计算能力。这是目前Grok 3训练算力的50-80倍。

更疯狂的是，马斯克说这个集群将在5-9个月内建成。这个建设速度，传统数据中心厂商看了都得傻眼。

电力是最大的挑战

你知道5000万个H100需要多少电吗？35吉瓦。

这什么概念？一个核电站的发电量通常是1吉瓦，也就是说，马斯克需要35个核电站专门给他的AI集群供电。

即使到了2029年，使用Nvidia最新的Feynman Ultra GPU，功耗相比现在有大幅改善，这样的集群仍然需要4.685吉瓦的电力供应。

这已经超过了法属圭亚那整个国家的用电量。

不过话说回来，马斯克向来不按常理出牌。他在德州建特斯拉超级工厂的时候，也有人觉得不可能。现在看起来，xAI正在走同样的路线。

AI军备竞赛的新维度

从这个角度看，AI竞争已经不只是算法和模型的竞争了，更是基础设施的竞争。

OpenAI说要建"100万GPU"的数据中心，Google有自己的TPU集群，而马斯克直接从量级上碾压。

更关键的是，马斯克有几个别人没有的优势：

• Tesla的电池技术 - Colossus 1就是用Tesla电池作为备用电源

• SpaceX的工程能力 - 这种超大规模基建项目，SpaceX有经验

• X平台的实时数据 - 其他AI公司想要的训练数据，他有源源不断的供应

这种跨公司的协同优势，是其他AI公司很难复制的。

超级智能要来了？

马斯克在接受采访时说，他预计超级智能可能在今年或2026年出现。

按他的定义，超级智能是指"在大多数事情上都比任何一个人类更聪明的AI"。

我不知道这个预测准不准，但从硬件基础设施的角度看，马斯克确实在为这个目标做准备。他提到，全球大概会有十个"深度智能"数据中心，其中四个在美国。

想想看，如果真的实现了，这将是人类历史上最大规模的计算集群，专门用来训练可能比人类更聪明的AI。

现实一点说

当然了，计划是一回事，能不能实现是另一回事。

5000万个H100等效算力，35吉瓦电力，这在工程上确实是巨大的挑战。但考虑到马斯克之前的记录 - 从PayPal到特斯拉到SpaceX - 我觉得不能轻易说他做不到。

至少现在，他已经有了业界最大规模的AI训练集群。Grok模型能够实时接入X平台数据，在某些基准测试上表现确实不错。

这个基础设施军备竞赛，确实值得关注。不管结果怎样，它肯定会推动整个AI行业的发展速度。

不过话说回来，普通人更关心的可能是：这些超级AI什么时候能真正有用，而不是只会在基准测试上跑分。