马斯克昨天在X上发了一条消息:"xAI的目标是在5年内部署相当于5000万个H100的AI算力。"
5000万个H100,这什么概念?我算了一下,这相当于35个核电站的发电量才能供得起。
更震撼的是,马斯克现在已经在用的基础设施规模了。
现在就有23万个GPU在转
昨天看到的数据确实挺震撼的。xAI的Memphis数据中心现在运行着:
• 15万个H100 - 这是之前的主力
• 5万个H200 - 性能是H100的两倍
• 3万个GB200 - 基于最新Blackwell架构,性能是H100的5倍
按算力折算,这相当于40万个H100在同时工作。这个数字什么概念呢?OpenAI说他们年底要有"超过100万个GPU",但按算力计算,马斯克现在已经有了。
而这只是他们的Colossus 1集群。
Colossus 2要来了
马斯克最近透露,他们正在建设第二个集群 - Colossus 2。这个集群计划部署110万个GB200和GB300。
我看到这个数字的时候,第一反应是:这还是地球上的项目吗?
按照算力计算,Colossus 2完工后,xAI将拥有相当于500-800万个H100的计算能力。这是目前Grok 3训练算力的50-80倍。
更疯狂的是,马斯克说这个集群将在5-9个月内建成。这个建设速度,传统数据中心厂商看了都得傻眼。
电力是最大的挑战
你知道5000万个H100需要多少电吗?35吉瓦。
这什么概念?一个核电站的发电量通常是1吉瓦,也就是说,马斯克需要35个核电站专门给他的AI集群供电。
即使到了2029年,使用Nvidia最新的Feynman Ultra GPU,功耗相比现在有大幅改善,这样的集群仍然需要4.685吉瓦的电力供应。
这已经超过了法属圭亚那整个国家的用电量。
不过话说回来,马斯克向来不按常理出牌。他在德州建特斯拉超级工厂的时候,也有人觉得不可能。现在看起来,xAI正在走同样的路线。
AI军备竞赛的新维度
从这个角度看,AI竞争已经不只是算法和模型的竞争了,更是基础设施的竞争。
OpenAI说要建"100万GPU"的数据中心,Google有自己的TPU集群,而马斯克直接从量级上碾压。
更关键的是,马斯克有几个别人没有的优势:
• Tesla的电池技术 - Colossus 1就是用Tesla电池作为备用电源
• SpaceX的工程能力 - 这种超大规模基建项目,SpaceX有经验
• X平台的实时数据 - 其他AI公司想要的训练数据,他有源源不断的供应
这种跨公司的协同优势,是其他AI公司很难复制的。
超级智能要来了?
马斯克在接受采访时说,他预计超级智能可能在今年或2026年出现。
按他的定义,超级智能是指"在大多数事情上都比任何一个人类更聪明的AI"。
我不知道这个预测准不准,但从硬件基础设施的角度看,马斯克确实在为这个目标做准备。他提到,全球大概会有十个"深度智能"数据中心,其中四个在美国。
想想看,如果真的实现了,这将是人类历史上最大规模的计算集群,专门用来训练可能比人类更聪明的AI。
现实一点说
当然了,计划是一回事,能不能实现是另一回事。
5000万个H100等效算力,35吉瓦电力,这在工程上确实是巨大的挑战。但考虑到马斯克之前的记录 - 从PayPal到特斯拉到SpaceX - 我觉得不能轻易说他做不到。
至少现在,他已经有了业界最大规模的AI训练集群。Grok模型能够实时接入X平台数据,在某些基准测试上表现确实不错。
这个基础设施军备竞赛,确实值得关注。不管结果怎样,它肯定会推动整个AI行业的发展速度。
不过话说回来,普通人更关心的可能是:这些超级AI什么时候能真正有用,而不是只会在基准测试上跑分。