AI在线 AI在线

MoE模型

破解MoE模型“规模越大,效率越低”困境!中科院自动化所提出新框架

大模型参数量飙升至千亿、万亿级,却陷入“规模越大,效率越低” 困境? 中科院自动化所新研究给出破局方案——首次让MoE专家告别“静态孤立”,开启动态“组队学习”。 具体而言,MoE本是大语言模型(LLM)实现参数量扩张且计算成本仅呈线性增长的核心路径,却长期受困于负载失衡、参数冗余、通信开销的“三难困境”,成为大模型落地部署的主要瓶颈。
10/11/2025 9:20:13 AM
量子位

万卡集群真实部署,已节省数百万 GPU 小时!MoE 通信优化技术 COMET 开源

当前,MoE 架构是业界拓展模型规模的重要方向,然而,其在分布式训练中存在的大量通信开销,仍严重制约了训练效率和成本。 为攻克这一瓶颈,豆包大模型团队提出了一个全新的通信优化系统 COMET,通过更精准、细粒度的计算-通信重叠技术,在大规模 MoE 模型上可达到单层 1.96 倍加速,端到端平均 1.71 倍效率提升,且在不同并行策略、输入规模及硬件环境下均表现稳定。 目前,COMET 已实际应用于万卡级生产集群,助力 MoE 模型高效训练,并已累计节省了数百万 GPU 小时资源。
4/3/2025 12:00:00 AM
豆包大模型团队
  • 1