华为推出昇腾超节点技术，成功实现业界最大规模 384 卡高速总线互联

作者：归泷 2025-05-25 02:40

IT之家从华为中国官方获悉，此次推出的昇腾 384 超节点，由 12 个计算柜和 4 个总线柜构成，是目前业界规模最大的超节点。依托华为在 ICT 领域深厚的技术与工程经验，通过最佳负载均衡组网方案，该超节点可进一步扩展为包含数万卡的 Atlas 900 SuperCluster 超节点集群，为未来更大规模的模型演进提供支撑。

2025 年 5 月 23 日，在鲲鹏昇腾开发者大会 2025 —— 昇腾 AI 开发者峰会上，华为推出了昇腾超节点技术，成功实现业界最大规模的 384 卡高速总线互联。

当前，大模型发展呈现参数与效率交替演进的态势：一方面，Scaling Law 不断推动模型能力突破极限；另一方面，以 DeepSeek 为代表的创新架构与工程技术，正加速模型能力在千行万业的落地应用。在此背景下，MoE 成为主流模型结构，其复杂的混合并行策略带来巨大挑战，TP、SP、EP 单次通信量高达 GB 级且难以掩盖。随着并行规模持续扩大，传统服务器跨机带宽已成为训练的核心阻碍，亟需计算架构的创新升级以适配未来模型发展。

传统服务器依赖以太网络实现跨机互联，通信带宽较低。实践表明，当 TP、SP 或 EP 等分布式策略的混合并行域超过 8 卡时，跨机通信带宽便成为性能瓶颈，导致系统性能大幅下降。

据介绍，华为昇腾超节点打破了以 CPU 为中心的冯诺依曼架构，创新提出了对等计算架构，凭借高速总线互联技术实现重大突破，把总线从服务器内部，扩展到整机柜、甚至跨机柜。在超节点范围内，用高速总线互联替代传统以太，通信带宽提升了 15 倍；单跳通信时延也从 2 微秒做到 200 纳秒，降低了 10 倍，使集群如同一台计算机般协同工作，有效突破系统性能限制。

AI在线从华为中国官方获悉，此次推出的昇腾 384 超节点，由 12 个计算柜和 4 个总线柜构成，是目前业界规模最大的超节点。依托华为在 ICT 领域深厚的技术与工程经验，通过最佳负载均衡组网方案，该超节点可进一步扩展为包含数万卡的 Atlas 900 SuperCluster 超节点集群，为未来更大规模的模型演进提供支撑。

性能测试数据显示，在昇腾超节点集群上，LLaMA 3 等千亿稠密模型性能相比传统集群提升 2.5 倍以上；在通信需求更高的 Qwen、DeepSeek 等多模态、MoE 模型上，性能提升可达 3 倍以上，较业界其他集群高出 1.2 倍，在行业中处于领先地位。

华为昇腾 384 超节点 Atlas 900 SuperPoD 被评选为本次 WAIC 2025 镇馆之宝

AI在线 7 月 28 日消息，2025 世界人工智能大会（WAIC）于 7 月 26 日在上海世博中心启幕。本次 WAIC，华为首次线下展出昇腾 384 超节点 Atlas 900 A3 SuperPoD，该产品基于超节点架构，通过总线技术实现 384 个 NPU 之间的大带宽低时延互联，解决集群内计算、存储等各资源之间的通信瓶颈。据华为中国官方消息，昇腾 384 超节点 Atlas 900 SuperPoD 被评选为本次 WAIC 2025 镇馆之宝，其主要有以下 3 大优势：① 超大带宽超节点内任意两个 AI 处理器之间通信带宽，相较于传统架构提升 15 倍，超节点内单跳时延降低 10 倍。

7/28/2025 11:20:37 AM 归泷

华为张修征：今年上半年 CloudMatrix 384 超节点将有数万规模上线，有望“彻底终结算力焦虑”

华为公司副总裁张修征今日表示，华为云 CloudMatrix 384 超节点今年上半年将有数万规模的上线，这或将彻底终结算力焦虑。未来，CloudMatrix 超节点可以构建超过万片的大集群来提供算力。（科创板日报）

4/11/2025 7:45:57 PM 汪淼

华为推出昇腾超节点技术，成功实现业界最大规模 384 卡高速总线互联

相关资讯

华为昇腾 384 超节点 Atlas 900 SuperPoD 被评选为本次 WAIC 2025 镇馆之宝

华为张修征：今年上半年 CloudMatrix 384 超节点将有数万规模上线，有望“彻底终结算力焦虑”

华为 ModelEngine AI 平台支持 DeepSeek 全系列本地部署