为了加速推理模型、Agentic AI 系统等新兴生成式 AI 技术的发展,亚马逊云科技本周宣布由 NVIDIA Grace Blackwell Superchips 加速的 Amazon EC2 P6e-GB200 UltraServer 现已正式可用。P6e-GB200 UltraServer 专为训练和部署最大规模、最复杂的 AI 模型而设计。
今年早些时候,亚马逊云科技已推出了基于 NVIDIA Blackwell GPU 的 Amazon EC2 P6-B200 实例,支持多样化的 AI 和高性能计算工作负载。
基于亚马逊云科技在大规模、安全可靠 GPU 基础设施的丰富经验,Amazon EC2 P6e-GB200 UltraServer 和 Amazon P6-B200 实例能够帮助客户持续推动 AI 技术的边界。
满足 AI 工作负载不断增长的计算需求
Amazon EC2 P6e-GB200 UltraServer 是亚马逊云科技迄今为止最强大的 GPU 产品,配备最多 72 个 NVIDIA Blackwell GPU,这些 GPU 通过第五代 NVIDIA NVLink 互连,并作为单一计算单元运行。每台 UltraServer 可提供高达 360 petaflops 的高密度 FP8 算力,以及 13.4TB 的高带宽显存(HBM3e)—— 相比 P5en 实例,在单个 NVLink 域内的计算能力提升超过 20 倍,内存容量提升超过 11 倍。Amazon EC2 P6e-GB200 UltraServer 支持高达 28.8 Tbps 的第四代 Elastic Fabric Adapter(EFAv4)网络带宽。
亚马逊云科技表示,Amazon EC2 P6-B200 实例能为广泛 AI 场景提供灵活选择。每个实例配备 8 个通过 NVLink 互连的 NVIDIA Blackwell GPU,拥有 1.4TB 高带宽显存和最高 3.2 Tbps 的 EFAv4 网络带宽,以及第五代 Intel Xeon Scalable 处理器。与 Amazon EC2 P5en 实例相比,Amazon EC2 P6-B200 实例的 GPU 计算能力是其 2.25 倍,显存容量为其 1.27 倍,显存带宽为其 1.6 倍。
如何在 Amazon EC2 P6e-GB200 与 Amazon EC2 P6-B200 之间进行选择?这取决于客户的具体工作负载需求和架构偏好:
- Amazon EC2 P6e-GB200 UltraServer 非常适合对计算与内存要求最为严苛的 AI 工作负载,例如训练和部署万亿参数级的前沿模型。NVIDIA GB200 NVL72 架构在这种规模下表现尤为出色。可以想象,72 个 GPU 协同运作、共享统一内存空间并实现协调的负载分配。这种架构通过降低 GPU 节点之间的通信开销,提高分布式训练效率。对于推理任务,能够在单一 NVLink 域内容纳万亿参数模型,这意味着可在大规模场景下实现更快、更稳定的响应时间。当与如 NVIDIA Dynamo 支持的解耦式推理等优化技术结合使用时,GB200 NVL72 架构具备的大规模域优势,可为专家混合模型等多种模型架构带来显著的推理效率提升。特别是在处理超长上下文窗口或实时运行高并发应用时,GB200 NVL72 展现出强大的性能表现。
- Amazon EC2 P6-B200 实例支持广泛的 AI 工作负载,是面向中到大型训练与推理任务的理想选择。对于希望迁移现有 GPU 工作负载的客户,Amazon EC2 P6-B200 提供了熟悉的 8-GPU 配置,可最大程度减少代码修改,简化从当前代实例的迁移过程。此外,尽管英伟达的 AI 软件栈已针对 Arm 和 x86 架构进行了优化,但对于构建于 x86 环境的工作负载,配备 Intel Xeon 处理器的 Amazon EC2 P6-B200 实例将更为契合。
基于亚马逊云科技核心优势的持续创新
将 NVIDIA Blackwell 引入亚马逊云科技不仅是一项技术突破,更是对基础设施的全面创新。基于在计算、网络、运维和托管服务等领域的多年深耕与实践,亚马逊云科技将 NVIDIA Blackwell 的全部功能融入其中,同时满足客户期望在亚马逊云科技获得的高可靠性和性能。
实例强大的安全性与稳定性
客户在选择将 GPU 工作负载部署在亚马逊云科技上的原因中,有一点反复被提及:他们高度认可亚马逊云科技在云端对实例安全性与稳定性上的重视。Amazon Nitro 系统的专用硬件、软件和固件具备强制隔离机制,确保包括亚马逊云科技员工在内的任何人都无法访问客户的敏感 AI 负载与数据。
除了安全性,Amazon Nitro 系统还从根本上革新了基础设施的维护与优化方式。该系统负责处理网络、存储及其他 I/O 功能,并支持在系统持续运行的情况下完成固件升级、漏洞修复和性能优化。这种无需停机即可更新的能力,被称为 “实时更新”,在当前对连续性要求极高的 AI 生产环境中尤为关键,任何中断都可能对业务进度造成严重影响。
Amazon EC2 P6e-GB200 和 Amazon EC2 P6-B200 均搭载第六代 Nitro 系统。但这些安全与稳定性的优势并非首次出现,自 2017 年起,创新型 Nitro 架构就已在持续保护和优化 Amazon EC2 上的工作负载。
大规模环境下的可靠性能保障
对于 AI 基础设施的挑战不仅在于实现超大规模,更在于如何在这一规模下持续保障性能和可靠性。Amazon EC2 P6e-GB200 UltraServer 已部署至第三代 Amazon EC2 UltraCluster 中,创建了单一架构,可覆盖亚马逊云科技规模最大的数据中心。第三代 UltraCluster 最多可将功耗降低 40%、布线需求减少超过 80%,不仅显著提升了能效,也有效减少了潜在故障点。
为了在超大规模部署中提供一致性能,亚马逊云科技采用了 Elastic Fabric Adapter(EFA)及其可扩展可靠数据报协议(Scalable Reliable Datagram),该协议可在多条网络路径之间智能路由流量,即使在出现拥堵或故障的情况下,也能保持系统稳定运行。亚马逊云科技持续对四代 EFA 进行性能优化。配备 EFAv4 的 Amazon EC2 P6e-GB200 和 Amazon EC2 P6-B200 实例,在分布式训练中的集体通信速度相比使用 EFAv3 的 Amazon EC2 P5en 实例提升最高可达 18%。
基础设施效率
Amazon EC2 P6-B200 实例采用经过验证的空气冷却架构,而 Amazon EC2 P6e-GB200 UltraServer 则采用液冷方案,使大型 NVLink 域架构能够实现更高的计算密度,从而提升系统整体性能。P6e-GB200 配备创新的机械冷却设计,可在新建和既有数据中心中实现灵活的芯片级液冷,从而在同一设施内同时支持液冷加速器与空气冷却的网络和存储设备。凭借这一灵活的冷却架构,亚马逊云科技能够以更低成本实现更高性能与效率。
在亚马逊云科技上启用 NVIDIA Blackwell
亚马逊云科技通过多种部署路径简化 Amazon EC2 P6e-GB200 UltraServer 和 Amazon EC2 P6-B200 实例的启用过程,客户可快速开始使用 Blackwell GPU,同时保持其现有的运维模式。
Amazon SageMaker HyperPod
如果客户希望加速 AI 开发,并减少对基础设施和集群运维的投入,Amazon SageMaker HyperPod 正是理想之选。该服务提供托管式、可靠的基础设施,能够自动完成大型 GPU 集群的配置与管理。亚马逊云科技也在持续增强 Amazon SageMaker HyperPod,新增灵活训练计划等创新功能,帮助客户获得可预测的训练周期,并将训练任务控制在预算范围内。
Amazon SageMaker HyperPod 将支持 Amazon EC2 P6e-GB200 UltraServer 和 Amazon EC2 P6-B200 实例,并通过优化使工作负载保持在同一 NVLink 域内,以实现性能最大化。亚马逊云科技还在构建一套完整的多层级恢复机制:Amazon SageMaker HyperPod 可在同一 NVLink 域内自动用预配置的备用实例替换故障节点。内置仪表板将提供从 GPU 利用率、内存使用情况到工作负载指标和 UltraServer 运行状态的全面可视化信息。
Amazon EKS
对于大规模 AI 工作负载,如果客户更倾向于使用 Kubernetes 管理基础设施,Amazon Elastic Kubernetes Service(Amazon EKS)通常是首选控制平面。Amazon EKS 持续推动 Amazon EKS 的创新,例如 Amazon EKS Hybrid Nodes 功能,可支持在同一个集群中同时管理本地和 Amazon EC2 GPU,从而为 AI 工作负载带来更大灵活性。
Amazon EKS 将通过托管节点组支持对 Amazon EC2 P6e-GB200 UltraServer 和 Amazon EC2 P6-B200 实例的自动配置与生命周期管理。针对 Amazon EC2 P6e-GB200 UltraServer,亚马逊云科技正在为其构建拓扑感知能力,以识别 GB200 NVL72 架构,并自动为节点添加 UltraServer ID 和网络拓扑信息,从而实现最优的工作负载调度。客户可选择将节点组部署在多个 UltraServer 之间,或专用于单个 UltraServer,从而在训练基础设施架构上获得更高的灵活性。Amazon EKS 还会监控 GPU 和加速器错误,并将相关信息传递至 Kubernetes 控制平面,以支持后续处理。
亚马逊云科技上的 NVIDIA DGX Cloud
Amazon EC2 P6e-GB200 UltraServer 也将通过 NVIDIA DGX Cloud 提供。DGX Cloud 是一个统一的 AI 平台,在各层架构均经过优化,具备多节点 AI 训练与推理能力,并集成英伟达完整的 AI 软件栈。客户可充分利用英伟达最新的性能优化方案、基准测试方法和技术专长,以提升效率与性能。该平台还提供灵活的服务期限选择,以及由英伟达专家提供的全面支持与服务,助力客户加速推进 AI 项目。
此次发布是一个重要的里程碑,但这仅仅是一个开始。随着 AI 能力持续的快速演进,客户需要的基础设施不仅要满足当下需求,更要为未来的多种可能性提供支撑。通过在计算、网络、运维和托管服务等多个层面的持续创新,Amazon EC2 P6e-GB200 UltraServer 和 Amazon EC2 P6-B200 实例已做好充分准备来实现这些可能。我们期待看到客户的未来构建。