AI在线 AI在线

全球首台百亿亿级超算用AMD的GPU:性能增7倍,能效提升3倍

E 级超算,每秒钟百亿亿次运算,1 后面跟 18 个零。

全球首台百亿亿级超算用AMD的GPU:性能增7倍,能效提升3倍

2018 年 6 月,美国能源部橡树岭国家实验室的工程师们发布了「Summit」超级计算机,超越神威 · 太湖之光成为了世界第一,它的理论峰值容量接近 200 petaflops——即每秒 20 万万亿次浮点运算,使用 IBM Power9 处理器和英伟达 Tesla V100 加速卡。

不过两年后,Summit 就被使用 Arm 架构的日本「富岳」超过,目前排名第二。

全球首台百亿亿级超算用AMD的GPU:性能增7倍,能效提升3倍

今年 11 月最新版的超算 Top 500 榜单。

顶级超算迭代的速度如此之快,但仍然无法比拟人们的需求。在服役短短的四年时间内,橡树岭实验室对超算服务的需求就已经超过了这台巨大机器的容量。

「Summit 算力会被超额认购四到五倍,」负责 ORNL 领先计算设施的 Justin Whitt, 说道。「这限制了使用它的进行研究项目的数量。」

现在,是时候讨论更快的超级计算机了。橡树岭国家实验室的下一个计划名叫 Frontier,完成后它将具有超过 1.5 exaflops 的峰值理论容量。

Frontier 的非凡之处并不在于它要比 Summit 强七倍以上——这个数字显然是令人惊叹的。更值得注意的是,它做到这一点只用了两倍的功率。这仍然是一个很大的功率——Frontier 预计将消耗 29 兆瓦,足以为加利福尼亚州库比蒂诺(苹果公司所在地)大小的城镇供电。但这是一个可控的数量。

「我们现在可以在很小的空间内塞进更多的计算机硬件,」Whitt 表示。「这些计算机机柜每个都与全尺寸皮卡一样重。」里面装满了 ORNL 的规格表所描述的「由高性能计算和 AI 优化的 AMD EPYC 处理器与 Radeon Instinct GPU 加速器驱动的高密度计算板卡,它们专为满足百亿亿次计算的需求而构建。」

全球首台百亿亿级超算用AMD的GPU:性能增7倍,能效提升3倍

建造一台具有这种能力的超级计算机已经够难了,新冠疫情也让事情更加具有挑战性。「供应链的问题其实很广泛,」Whitt 表示,许多对构建高性能超级计算机来说并不特殊的东西存在短缺。「它可能只是金属板或螺丝。」

供应链问题确实是 Frontier 将于 2022 年在另一台计划中的超级计算机 Aurora 之前投入运行的原因,后者将安装在伊利诺伊州的美国能源部阿贡国家实验室(Argonne National Laboratory, ANL)。Aurora 是在 2018 年先上马的,但它的建设被推迟了,因为英特尔很难提供这台机器所需的处理器和 GPU。

在团队最初的规划中,Frontier 这台巨型机器将在 2021 年底之前交付,并在 2022 年全面投入使用。所以,它可以被称为世界上第一台百亿亿级超级计算机吗?

那要看每个人的定义了:「(日本的富岳超级计算机)实际上是在不同的基准实现了 2 exaflop 的混合精度计算,」田纳西大学的 Jack Dongarra 说,他是 Top500 名单背后的专家成员之一。他解释说,这些排名是基于涉及 64 位浮点计算的基准,此类计算多用于解决许多物理模拟所需的三维偏微分方程。「这是应用超级计算机的底线,」Dongarra 说。但他也指出,超级计算机越来越多地用于训练深度神经网络,在这方面 16 位精度就足够了。

还有一个特殊的例子「Folding@Home」,这是一个旨在模拟蛋白质折叠的分布式计算项目。几十万名玩家捐出了自己的 GPU,通过众源的方式,Folding@Home 超级计算机实现了超过 1 exaflop(每秒 1 百亿亿次浮点计算)的处理能力。

「我会称它为专用计算机,」Dongarra 说,每个人都可以参与完成这项工作,因为涉及到大量并行的计算。也就是说,每一台计算机可以独立执行所需的计算,它们之间几乎不需要进行网络通信。2020 年 3 月,Folding@Home 项目宣布:「我们已经跨越了 exaflop 的障碍!」

但如果坚持使用一般基准的话,也就是用于 Top500 排名的基准,世界上任何一台超级计算机都还没有资格成为百亿亿级计算机。Frontier 可能是第一台,或者说,它有望成为第一台已知的百亿亿级超级计算机。Dongarra 解释说,在 2021 年 6 月的 Top500 排名出炉之前,有传言说中国至少有一台或两台已经在百亿亿级运行的超级计算机。

Top 500 超算榜单半年更新一次,直到 11 月的榜单出炉,前几名没有新超算揭幕。Frontier 会不会被中国的超算截胡呢?

2020 年 1 月 2 日,《科学》杂志刊文展望了 2020 年可能成为头条的十大科学新闻,其中包括中国或建造全球首台 E 级超算。据公开报道,「天河 3 号」E 级超算验证机进展顺利。

全球首台百亿亿级超算用AMD的GPU:性能增7倍,能效提升3倍

今年 7 月,由国防科技大学研制,部署在国家超级计算天津中心的「天河」E 级计算机关键技术验证系统在国际 Graph500 排名中,获得 SSSP Graph500(单源最短路径)榜单世界第一和 BIG Data Green Graph500(大数据图计算能效)榜单世界第一的成绩。图计算在大数据和人工智能领域应用广泛,相比于 Top 500,Graph500 榜单更偏向与应用。

今年 12 月 12 日,天津中心和国防科技大学,联合数十家合作团队共同发布了「面向新一代国产 E 级超级计算系统的十大应用挑战」。

据介绍,新一代百亿亿次(E 级)高性能计算机的研发,是国家在新一代信息技术领域的重要部署,其自主化程度远高于其他超算平台,同时规模与性能也会大幅提升。

或许在明年,悬念就将揭晓。

参考内容:

https://spectrum.ieee.org/exascale-supercomputing

https://www.top500.org/lists/top500/2021/11/

https://www.thepaper.cn/newsDetail_forward_13434752

相关资讯

比当前世界最快超算 Frontier 最多快 4 倍,美国发布下一代超算 Discovery 开发招标书

比当前世界最快超算 Frontier 最多快 4 倍,美国发布下一代超算 Discovery 开发招标书

据 Tom's Hardware 今日报道,美国能源部上周发布了一项关于开发新超级计算机“Discovery”的招标书(request for proposals,简称 RFP),这台超级计算机将取代目前全球已知最快的超级计算机 —— 位于橡树岭国家实验室的“Frontier”。“Discovery”的提案截止日期为 2024 年 8 月 30 日。“Discovery”计划在 2027 年或 2028 年初之前超越现有“Frontier”的性能,提供三到五倍的计算吞吐量(例如 8.5 ExaFLOPS)。橡树岭国
7/24/2024 6:09:29 PM 清源
2021图灵奖揭晓:高性能计算先驱、超算TOP500榜单创始人之一Jack Dongarra获奖

2021图灵奖揭晓:高性能计算先驱、超算TOP500榜单创始人之一Jack Dongarra获奖

他曾说过:未来的计算架构会是 CPU 和 GPU 的结合。
3/31/2022 11:47:00 AM 机器之心
谷歌 DeepMind 推出 AI 安全框架 Frontier Safety Framework,可检测优化降低大模型风险性

谷歌 DeepMind 推出 AI 安全框架 Frontier Safety Framework,可检测优化降低大模型风险性

谷歌 DeepMind 日前推出了一款名为“Frontier Safety Framework”的 AI 安全框架,主要用于检测 AI 模型的风险情况,号称能够主动识别“未来可能酿成重大风险的 AI 能力”,向研究人员指出相关模型“究竟在哪些层面可能会被黑客利用”。据介绍,DeepMind 目前公布的 Frontier Safety Framework 1.0 版本主要包含三个关键组件,即“识别模型是否具备酿成重大风险的能力”,“预估模型会在什么阶段具备安全隐患”、“智能优化模型防止其酿成风险”。▲ 图源 谷歌官方
5/21/2024 5:37:10 PM 漾仔