AI在线 AI在线

甲骨文推出全球最大AI超算,作为OpenAI「星际之门」算力核心

甲骨文在2025年AI World大会上发布OCI Zettascale10超级集群。 在拉斯维加斯举办的AI World 2025大会上,甲骨文高调推出了一台号称全球最大规模的云端AI超级计算机——OCI Zettascale10。 这个庞然大物横跨多个数据中心,由多达80万块NVIDIA GPU芯片构成,峰值计算性能被宣称可达惊人的16 ZettaFLOPS(即每秒1021次以上浮点运算)。

甲骨文在2025年AI World大会上发布OCI Zettascale10超级集群。

在拉斯维加斯举办的AI World 2025大会上,甲骨文高调推出了一台号称全球最大规模的云端AI超级计算机——OCI Zettascale10。

甲骨文推出全球最大AI超算,作为OpenAI「星际之门」算力核心

这个庞然大物横跨多个数据中心,由多达80万块NVIDIA GPU芯片构成,峰值计算性能被宣称可达惊人的16 ZettaFLOPS(即每秒1021次以上浮点运算)。

如此天文数字意味着平均每块GPU可贡献约20 PetaFLOPS算力,接近英伟达最新一代Grace Hopper(Blackwell架构GB300)芯片的水平。

甲骨文此举无疑是在急速升温的AI算力军备竞赛中放出「大招」,试图在云端AI基础设施版图上占据一席之地。

OpenAI巨型集群的动力之源

这套Zettascale10系统已经成为OpenAI庞大算力需求的幕后功臣。

据悉,甲骨文与OpenAI在德州阿比林(Abilene)共建了「星际之门」旗舰AI超级计算集群,而OCI Zettascale10正是其算力骨干。

OpenAI基础设施部门副总裁Peter Hoeschele表示,甲骨文定制的RoCE高速网络架构在「千兆瓦级」规模下最大化了整体性能,同时将大部分能耗都用在了计算上。

换言之,甲骨文研发的这套RDMA over Converged Ethernet网络(代号Acceleron)将海量GPU紧密连接成一个整体,使得OpenAI的大模型训练能够在如此庞大的芯片阵列上高效运转。

正因有了与OpenAI的深度合作背书,Zettascale10一亮相便自带「实战」光环,它已经在为当今业界最严苛的一些AI工作负载提供动力。

Acceleron网络架构揭秘

如此规模的GPU「巨阵」要高效运转,奥秘就在于甲骨文独创的Acceleron RoCE网络架构。

简单来说,Acceleron让每块GPU的网络接口卡(NIC)都充当一个小型交换机,一次可连接到多个隔离的网络交换平面。

这种多平面、扁平化的网络设计大幅降低了GPU之间的通信延迟,并确保即使某一路由出现故障时,训练作业也能自动切换到其它路径继续运行,不至于被迫中断。

相比传统三级交换结构,Acceleron减少了网络层级,使GPU对GPU的直连延迟更加一致,整体性能更具可预测性。

此外,该架构引入了线性可插拔光学模块(LPO)和线性接收光学组件(LRO)等新技术,在不降低400G/800G带宽的前提下削减了网络的能耗与冷却成本。

甲骨文称这种创新网络既提高了效率又降低了成本,让客户可以用更少的电力完成同样的AI训练任务;

NVIDIA公司高管Ian Buck也认可道,正是这种全栈优化的「计算结构」(compute fabric)提供了将AI从实验推进到工业化所需的基础。

峰值神话与现实考验

甲骨文计划在2026年下半年正式向客户提供Zettascale10集群服务,目前这一系统已开始接受预订。

然而,对于16 ZFLOPS的惊人算力,不少业内观察者持保留态度。

该数据尚未经独立机构验证,而且很可能是基于理论峰值算力而非持续实效得出。

据业内报道,甲骨文宣称的16 ZFLOPS有可能利用了极低精度的AI计算指标(例如FP8甚至4比特稀疏运算)来实现。

实际的大模型训练通常需要使用更高精度(如BF16或FP8)的数值格式以保证模型收敛效果,因此16 ZFLOPS这个数字更多体现了甲骨文硬件在理想情况下的上限潜力,而非日常工作负载下可持续交付的性能。

这台「云端巨无霸」真正的实战表现还有待时间检验,只有等到系统明年投入使用,各种基准测试与用户实际反馈才能揭晓它能否如宣称般高效且可靠。

云端AI竞赛的挑战与展望

甲骨文并非孤军奋战。

当前,微软、谷歌、亚马逊等云计算巨头也在争相构建各自的大规模AI集群,它们或采购海量GPU,或研发自家AI加速硬件,云端AI算力版图正迅速扩张。

甲骨文此次押下重注推出Zettascale10,一方面巩固了与OpenAI的战略联盟,另一方面也是向业界宣示其在AI时代不容忽视的新实力。

然而在市场前景上,甲骨文依然面临如何吸引客户的问题。

为此,该公司还发布了新的「多云通用积分」计划,允许运营商用统一的预付积分在甲骨文云及AWS、Azure、Google等多家云服务间自由调配甲骨文数据库和OCI服务。

甲骨文推出全球最大AI超算,作为OpenAI「星际之门」算力核心

这项举措旨在降低客户迁移门槛、提高平台黏性,为甲骨文云生态争取更大的用户基础。

OCI Zettascale10的出现展示了云服务商为满足AI空前算力需求所做的大胆探索。

等到明年这套系统真正落地,我们才能知道甲骨文能否凭借这一云端「巨无霸」在激烈的AI基础设施竞赛中抢得先机,并兑现其关于高效、规模和可靠性的承诺。

相关资讯

古尔曼:苹果正自研设备端大型语言模型,赋能 AI 功能

感谢据彭博社记者马克・古尔曼 (Mark Gurman) 报道,苹果公司正在研发一种运行于设备端的大型语言模型 (LLM) ,旨在提升即将发布的生成式 AI 功能的响应速度和隐私保护能力。古尔曼在其“Power On”通讯中提到,苹果的这个 LLM 将成为该公司未来生成式人工智能功能的基础。与现今大多数云端人工智能服务不同的是,所有迹象都表明该模型将完全运行于用户设备之上。由于运行于设备端,苹果的 AI 工具在某些情况下可能会逊于直接运行于云端的竞品。不过,古尔曼指出,苹果可以通过授权使用谷歌等其他 AI 服务提供
4/22/2024 9:04:46 AM
远洋

AI Agents的“超级大脑”来了 阿里云正式发布无影Agentbay

7月28日,上海世界人工智能大会WAIC上,阿里云正式推出了首款专为AI Agents打造的"超级大脑"——无影AgentBay。 这台云端电脑不仅能执行代码运行、网页浏览、数据分析、程序开发、表格制作等基础任务,还具备视觉理解、自然语言控制、任务解析等多项AI技能,可在Windows、Linux、Android等多个系统间无缝切换,随时调用云上的算力、存储和工具链资源,仅需三行代码即可接入,做到"拎包入住",让AI开发者们彻底告别繁琐的安装和配置。 作为2025年最受瞩目的技术之一,全球AI Agents市场规模已突破50亿美元,年增长率高达40%。
7/28/2025 10:59:00 PM
机器之心

黄仁勋5000亿豪赌:AI超算首次Made in USA!

英伟达周一抛出重磅消息,宣布将首次在美国制造AI超级计算机。 未来四年内,英伟达将通过与台积电、富士康、纬创资通、安靠(Amkor)和矽品(SPIL)的合作,在美国打造出价值5000亿美元的AI基础设施。 目前,位于亚利桑那州凤凰城的台积电工厂已经率先开工,开始生产Blackwell芯片。
4/16/2025 9:41:46 AM
新智元
  • 1