AI在线 AI在线

微软构建跨洲数据中心超级集群,助力大规模 AI 模型训练

近日,微软宣布正在建设一系列跨越洲际的数据中心超级集群,以应对未来人工智能模型的训练需求。 这些新设施将连接多个数据中心,通过高速网络实现数据的高效传输,目标是支持高达数百万亿个参数的 AI 模型训练。 10月,微软在威斯康星州的 Mount Pleasant 数据中心校园启动了首个节点,连接到位于乔治亚州亚特兰大的设施。

近日,微软宣布正在建设一系列跨越洲际的数据中心超级集群,以应对未来人工智能模型的训练需求。这些新设施将连接多个数据中心,通过高速网络实现数据的高效传输,目标是支持高达数百万亿个参数的 AI 模型训练。

10月,微软在威斯康星州的 Mount Pleasant 数据中心校园启动了首个节点,连接到位于乔治亚州亚特兰大的设施。这些数据中心并非普通设施,微软称之为 “Fairwater” 集群。它们为两层建筑,采用直连芯片的液体冷却技术,几乎不消耗水资源。未来,微软计划将这些集群扩展到数十万台多样化的 GPU,以应对不同的工作负载需求。

通过互联数据中心,微软能够训练更大规模的模型,并选择在土地成本低、气候宜人和电力资源丰富的地区建设新设施。尽管微软尚未透露连接这两座数据中心所使用的具体技术,但业内有多种选择。包括 Cisco 的51.2Tbps 路由器和 Broadcom 的新款 Jericho4硬件,这些设备可以有效连接距离达1000公里的数据中心。

同时,Nvidia 也在积极推动网络技术的发展,以应对 AI 训练的需求。微软在高性能计算环境中普遍采用 Nvidia 的 InfiniBand 网络协议,显示了其在高效数据传输方面的决心。在 AI 工作负载的分布上,减少带宽和延迟问题仍然是研究者们关注的重点。

AI 领域的进展显著。早前,谷歌的 DeepMind 团队发布了一项报告,表明通过在训练过程中压缩模型和合理安排数据中心之间的通信,可以克服许多挑战。

划重点:

🌐 微软正在构建跨洲数据中心超级集群,以支持未来大规模 AI 模型的训练。

💧 新设施采用高效的液体冷却技术,几乎不消耗水资源。

🚀 多种先进网络技术将连接这些数据中心,以提高 AI 训练的效率。

相关资讯

AI 泡沫加剧,红杉资本:年产值 6000 亿美元才够支付硬件开支

红杉资本(Sequoia Capital)的分析师大卫・卡恩(David Cahn)发布报告,认为 AI 产业泡沫家居,年产值超过 6000 亿美元,才够支付数据中心、加速 GPU 卡等 AI 基础设施费用。英伟达 2023 年数据中心硬件收入达到 475 亿美元(其中大部分硬件是用于 AI 和 HPC 应用的计算 GPU)。此外 AWS、谷歌、Meta、微软等公司在 2023 年也在 AI 方面投入了大量资金,卡恩认为这些投资很难在短期内回本。卡恩只是粗略估算了 AI 运行成本,首先将英伟达的 run-rate
7/6/2024 11:57:00 AM
故渊

全球最强GPU订单曝光,TOP 1微软一年买爆近50万块!xAI晒首批GB200提前过年

谁是今年英伟达GPU的最大买家? 就在刚刚,答案曝光——TOP 1竟是微软。 今天,这张对比图在网上被转疯了。
12/19/2024 11:32:59 AM
新智元

刚刚,全球首个GB300巨兽救场!一年烧光70亿,OpenAI内斗GPU惨烈

过去一年,OpenAI在算力上斥资70亿美元。 其中,大模型研发占了最大头——50亿美元,而推理计算仅用了20亿美元。 图片可见,LLM训练正吞噬无尽的算力,这也是OpenAI最近一直在大举扩展超算建设与合作的重要原因。
10/11/2025 10:34:49 AM
新智元