科大讯飞联合华为，率先实现国产算力大规模跨节点专家并行集群推理

作者：汪淼 2025-03-11 03:19

这是继 DeepSeek 公布其 MoE 模型训练推理方案后，业界首个基于国产算力的全新解决方案。

科大讯飞研究院今日官宣，科大讯飞携手华为在国产算力领域取得重大进展，双方联合团队率先突破国产算力集群上 MoE 模型的大规模跨节点专家并行集群推理，这是继 DeepSeek 公布其 MoE 模型训练推理方案后，业界首个基于国产算力的全新解决方案。

联合团队通过软硬件的深度协同创新，在多个关键技术层面深挖硬件潜力，完成昇腾集群上的验证和部署。在算子融合方面，团队在 MLA 预处理阶段通过 Vector 与 Cube 异构计算单元并行流水，并将多个小算子融合重构为原子级计算单元，消除小算子下发开销，MLA 前处理时延降低 50%+，实现性能的显著提升。

科大讯飞研究院介绍称，在混合并行策略和通信计算并行优化方面，团队构建了 TP（张量并行）+EP（专家并行）混合范式：对 MLA 计算层采用机内 TP 并行，发挥机内高速互联优势，降低跨机通信损耗；创新 MoE 专家分层调度，64 卡均衡分配专家计算节点，定制 AllToAll 通信协议，专家数据交换效率提升 40%，构建跨机 / 机内双层通信架构，通过分层优化降低跨机流量 60%；同时研发路由专家负载均衡算法，实现卡间负载差异小于 10%，集群吞吐提升 30%。

通过分布式架构创新与算法协同优化，联合团队在国产算力上实现了显著的性能提升。单卡静态内存占用缩减至双机部署的 1/4，效率提升 75%，专家计算密度增加 4 倍，推理吞吐提升 3.2 倍，端到端时延降低 50%。

科大讯飞研究院表示，这一突破性的解决方案也将应用于讯飞星火深度推理模型的训练加速，预期训练时推理效率将提升 200%。同时，基于该方案的推理引擎也实现了国产算力上 DeepSeek V3 和 R1 的高效推理。

AI在线从科大讯飞公告获悉，科大讯飞深度推理大模型星火 X1 也完成升级，在模型参数量比业界同行少一个数量级的情况下，星火 X1 的数学能力全面对标 DeepSeek R1 和 OpenAI o1，在中文数学各项任务中“均实现领先”。

科大讯飞即将发布新版本星火 X1，超越 OpenAI 的国产算力平台

近日，科大讯飞在一次机构调研中透露，正在全力训练的纯国产算力平台 “星火 X1” 新版本即将问世，预计将在未来三个月内完成。这一新版本的发布被寄予厚望，科大讯飞表示，该平台将具备更强的数学解题能力和复杂的过程思维链能力，力争在这些方面全面对标甚至超越 OpenAI 的技术。 “星火 X1” 的新版本是科大讯飞在国产算力平台上的一项重要尝试，标志着中国在人工智能领域自主可控技术的进一步发展。

2/14/2025 9:53:00 AM AI在线

科大讯飞等投资 AI 语音公司声临奇境

天眼查App显示，近日深圳声临奇境人工智能有限公司在工商登记上发生了变更，科大讯飞旗下的安徽讯飞云创科技有限公司与武汉长湖科技有限公司成为新股东。这一变化是在2023年2月21日完成的，同时该公司的注册资本由200万元人民币增加至约202万元人民币。声临奇境成立于2019年7月，法定代表人是周超。

2/24/2025 11:50:00 AM AI在线

科大讯飞联合华为，率先实现国产算力大规模跨节点专家并行集群推理

相关资讯

刘庆峰：科大讯飞将做全栈自主可控的大模型国家队

科大讯飞即将发布新版本星火 X1，超越 OpenAI 的国产算力平台

科大讯飞等投资 AI 语音公司声临奇境

科大讯飞联合华为，率先实现国产算力大规模跨节点专家并行集群推理

相关资讯

刘庆峰：科大讯飞将做全栈自主可控的大模型国家队

科大讯飞即将发布新版本星火 X1，超越 OpenAI 的国产算力平台

​科大讯飞等投资 AI 语音公司声临奇境

科大讯飞等投资 AI 语音公司声临奇境