AI在线 AI在线

DeepSeek开源周第二日:首个面向MoE模型的开源EP通信库

Deepseek 公布了开源周第二天的产品,首个面向MoE模型的开源EP通信库,支持实现了混合专家模型训练推理的全栈优化。 DeepEP 是一个专为混合专家(MoE)和专家并行(EP)设计的高效通信库。 它致力于提供高吞吐量和低延迟的多对多 GPU 内核,通常被称为 MoE 调度和组合。

Deepseek 公布了开源周第二天的产品,首个面向MoE模型的开源EP通信库,支持实现了混合专家模型训练推理的全栈优化。

DeepEP 是一个专为混合专家(MoE)和专家并行(EP)设计的高效通信库。它致力于提供高吞吐量和低延迟的多对多 GPU 内核,通常被称为 MoE 调度和组合。

QQ_1740452301668.png

DeepEP 不仅支持 FP8等低精度操作,还与 DeepSeek-V3论文提出的组限制门控算法相一致,优化了不对称域带宽转发的内核,例如将数据从 NVLink 域转发至 RDMA 域。这些内核具有高吞吐量,非常适合于训练和推理预填充任务,并且可以对流处理器的数量进行控制。

QQ_1740452534008.png

对于对延迟敏感的推理解码任务,DeepEP 还包括一组低延迟的内核,利用纯 RDMA 以最小化延迟。此外,DeepEP 还引入了一种基于钩子的通信 - 计算重叠方法,不会占用任何流处理器资源。

在性能测试中,DeepEP 在 H800和 CX7InfiniBand400Gb/s RDMA 网络卡上进行了多项测试。测试显示,正常内核在内节点和跨节点的带宽表现优异,而低延迟内核则在延迟和带宽方面都达到了预期效果。具体而言,低延迟内核在处理8个专家时的延迟为163微秒,带宽为46GB/s。

DeepEP 经过充分测试,主要与 InfiniBand 网络兼容,但理论上也支持在收敛以太网(RoCE)上运行。为了防止不同流量类型之间的干扰,建议在不同的虚拟通道中隔离流量,确保正常内核和低延迟内核之间不会相互影响。

DeepEP 是一个为混合专家模型提供高效通信解决方案的重要工具,具有优化性能、降低延迟和灵活配置等显著特点。

项目入口:https://x.com/deepseek_ai/status/1894211757604049133

划重点:  

🌟 DeepEP 专为混合专家模型设计,提供高吞吐量和低延迟的通信解决方案。  

⚙️ 支持多种低精度操作,并优化了数据转发的带宽性能。  

💡 经过测试与验证,DeepEP 兼容 InfiniBand 网络,适用于不同流量类型的隔离与管理。

相关资讯

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。基于此,来自北京大学、中山大学等机构的研究者联合提出了一种新颖的 LVLM 训练策略 ——MoE-Tuning。MoE-Tuning 可以构建参数数量惊人但计算成本恒定的稀疏模型,并有效解决通常与多模态学习和模型稀疏性相关的性能下降问题。该研究还提出了一种基于 MoE 的新型稀疏 LVLM 架构 ——MoE-LLaVA 框架。该框架独特地在部署过程中通过路
1/31/2024 3:01:00 PM
机器之心

用什么tricks能让模型训练得更快?先了解下这个问题的第一性原理

深度学习是门玄学?也不完全是。
3/22/2022 2:26:00 PM
机器之心

Meta 发布新一代 AI 训练与推理芯片,性能为初代芯片三倍

Meta Platforms 当地时间 10 日发布了其训练与推理加速器项目(MTIA)的最新版本,MTIA 是 Meta 专门为 AI 工作负载设计的定制芯片系列。据介绍,此次发布的新一代 MTIA 与第一代 MTIA 相比,显著改进了性能,并有助于强化内容排名和推荐广告模型。其架构从根本上侧重于提供计算、内存带宽和内存容量的适当平衡。该芯片还可帮助提高训练效率,使推理(即实际推理任务)变得更容易。Meta 在其官方博客文章中表示,“实现我们对定制芯片的雄心壮志,意味着我们不仅要投资于计算芯片,还要投资于内存带宽
4/10/2024 11:30:30 PM
清源
  • 1