DeepSeek 致谢腾讯技术团队，DeepEP 开源通信框架性能显著提升

作者：汪淼 2025-05-07 07:55

经测试，优化后的通信框架性能在 RoCE 网络环境提升 100%，IB 网络环境提升 30%，为企业开展 AI 大模型训练提供更高效的解决方案。

腾讯技术团队针对 DeepSeek 开源的 DeepEP 通信框架进行深度优化，使其在多种网络环境下均实现显著性能提升。

经测试，优化后的通信框架性能在 RoCE 网络环境提升 100%，IB 网络环境提升 30%，为企业开展 AI 大模型训练提供更高效的解决方案。

该技术方案获得了 DeepSeek 公开致谢，称这是一次“huge speedup”代码贡献。

DeepSeek 致谢腾讯技术团队，DeepEP 开源通信框架性能显著提升

AI在线注：DeepEP 是一个为专家混合（MoE）和专家并行（EP）量身定制的通信库。它提供高吞吐量和低延迟的全对全 GPU 内核，这些内核也被称为 MoE 派发和组合。该库还支持低精度运算，包括 FP8。

据悉，腾讯星脉网络团队在 DeepEP 开源后便展开技术攻关，发现两大关键瓶颈：一是对于双端口网卡带宽利用率不足，二是 CPU 控制面交互存在时延。

在腾讯的技术优化下，DeepEP 不仅在 RoCE 网络实现性能翻倍，反哺到 IB（InfiniBand）网络时更使原有通信效率再提升 30%。

目前，该技术已全面开源，并成功应用于腾讯混元大模型等项目的训练推理，在腾讯星脉与 H20 服务器构建的环境中，这套方案展现出出色的通用性。

刚刚，DeepSeek开源MoE训练、推理EP通信库DeepEP，真太Open了！

上周五，DeepSeek 发推说本周将是开源周（OpenSourceWeek），并将连续开源五个软件库。昨天，他们开源了第一个代码库 ——FlashMLA。这是一款用于 Hopper GPU 的高效型 MLA 解码核，仅用了 24 小时就达到了接近 8k 的 star 量（详情请参见《刚刚，DeepSeek 开源 FlashMLA，推理加速核心技术，Star 量飞涨中》）。

2/25/2025 11:39:00 AM

机器之心

DeepSeek公开致谢腾讯技术团队助力DeepSeek通信框架提速100%

DeepSeek近日发文公开致谢腾讯技术团队，称其对DeepSeek开源通信框架DeepEP的优化是一项“huge speedup”级别的代码贡献。此次优化聚焦于在多种网络环境下提升通信性能。经测试，优化后的DeepEP在RoCE网络环境下性能提升高达100%，在IB（InfiniBand）网络环境下提升约30%，显著增强了通信效率，为AI大模型训练提供了更稳定、高效的底层支撑。

5/8/2025 10:00:55 AM

AI在线

分析一下EP并行和DeepSeek开源的DeepEP代码

被好几个团队的人追着要渣B来分析一下DeepEP的工作, 公司内外的团队都有...简单的一句话说, 非常棒的工作,很多细节都值得学习. 但是还有一些硬件上的缺陷, 在DeepSeek-V3的论文中提出的建议要结合在一起看就会更清楚了. 我们还是由浅入深来谈谈EP并行, 并进一步分析一下这份出色的工作.

2/27/2025 9:06:34 AM

渣B

DeepSeek 致谢腾讯技术团队，DeepEP 开源通信框架性能显著提升

相关资讯

刚刚，DeepSeek开源MoE训练、推理EP通信库DeepEP，真太Open了！

DeepSeek公开致谢腾讯技术团队 助力DeepSeek通信框架提速100%

分析一下EP并行和DeepSeek开源的DeepEP代码

DeepSeek公开致谢腾讯技术团队助力DeepSeek通信框架提速100%