AI在线 AI在线

专家模型不要专家并行!微软开源MoE新路径

继Phi家族之后,微软又开源了新的混合专家大模型——GRIN MoE。 与Phi-3.5同样的个头(16 * 3.8B),却采用了截然不同的训练方法。 这个「不走寻常路」如果写个太长不看版,那就是两句话:1.

继Phi家族之后,微软又开源了新的混合专家大模型——GRIN MoE。

与Phi-3.5同样的个头(16 * 3.8B),却采用了截然不同的训练方法。

这个「不走寻常路」如果写个太长不看版,那就是两句话:

1. 使用新一代SparseMixer来精确估计专家路由的梯度,解决传统方案中利用门控梯度代替路由梯度的问题。

2. 专家并行不要了,训练中改用数据、pipeline和张量并行,避免了传统方法丢弃token的问题。

图片

论文地址:https://arxiv.org/abs/2409.12136

当然了,上面两句话是小编说的,多少有点糙,文中细节,还请诸君继续阅读~

这年头,新来一个LLM,当然要先刷分了——

参数要少,效果要好,所以要在左上角:

图片

GRIN作为MoE架构,总参数量约42B,推理时激活的参数为6.6B,打同级别(7B)的非MoE模型是手拿把攥,甚至比14B的Phi-3还要略胜一筹。

图片

在上面的这份成绩单中,GRIN MoE表现优异,尤其是在编码和数学测试中。

比如,在衡量数学问题解决能力的GSM-8K中,GRIN MoE得分为90.4,而在编码任务基准HumanEval上拿到了74.4分。

在MMLU(大规模多任务语言理解)基准测试中GRIN得分为79.4,超过了同为MoE架构的Mixtral(70.5分),以及自家的Phi-3.5(78.9分)。

如果对比流行的商用模型,GPT-3.5表示感受到时代的力量,默默退出群聊。

图片

开放权重:https://huggingface.co/microsoft/GRIN-MoE

demo:https://github.com/microsoft/GRIN-MoE

MoE全新训练路径

GRIN MoE由常规的Transformer块构成,采用分组查询注意力(GQA)和滑动窗口注意力来提高计算效率。

采用RoPE进行位置编码,以便在预训练后实现长上下文能力。

图片

在MoE架构中,模型通过路由网络为每个输入token挑选适合的专家模块。对于有n个专家的网络,一个用于推理的MoE模块的输出为:

图片

其中z = Router(x,r),本文中Router采用线性网络,Gating是门控函数(通常为softmax),Expert是FNN层。

MoE通过TopK函数进行专家分配,这个专家路由的过程是不可微的,所以反向传播的时候没法求导。

对此,传统的MoE训练将TopK视为常数,仅通过Gating来反向传播计算路由权重梯度,相当于用门控的梯度代替了路由的梯度。

这多少有点糙。

不可导怎么办

恰好,本文一作之前有一篇工作(SparseMixer):

图片

论文地址:https://arxiv.org/pdf/2310.00811

受到直通梯度估计器的启发,作者扩展了前作,提出了SparseMixer-v2。

作者首先将TopK函数替换为模型训练中离散变量的随机采样,然后应用heun’s third order method来近似专家路由梯度,并构建一个改进的反向传播,为专家路由给出数学上合理的梯度估计。

图片

前作中,SparseMixer的有效性在神经机器翻译任务和ELECTRA语言模型训练中得到了证明。

而在GRIN MoE的开发过程中,SparseMixer-v2终于有机会大规模应用于自回归语言模型训练。

作者用2.5T token训练了两个16×0.9B MoE。其中一个遵循GRIN MoE中使用的相同方案,另一个用传统的GShard方法替换 SparseMixer-v2。

图片

如上图所示,将SparseMixer-v2的性能提升推广到16×0.9B尺度的自回归语言模型训练。

在前0.5T token上GShard表现更好,但SparseMixer-v2在训练后期取得了更强的性能。

专家模型不要专家并行

传统的MoE训练采用专家并行,简单理解就是把不同的专家分配到不同的显卡上。

一个明显的问题是负载不均衡,有的专家会分到更多的token,有的专家却很闲。

图片

之前的做法是设定一个阈值,比如1000个token分给4个专家,每人应该是250,这时候每张卡就最多只算250个token,超过后直接丢弃(送到下一层)。

而在本文中,作者利用数据并行、pipeline并行和张量并行来训练GRIN MoE。

此外,对于没有专家并行性的MoE计算,作者发现Megablocks包非常有用,它的grouped_GEMM内核和包装器的性能更好。

应用这些新的工程化方法避免了专家并行,也就不用丢弃token了。

最终,与具有相同激活参数的密集模型相比,本文的方法实现了超过80%的训练效率提升。

图片

上表中,作者将两种不同大小的MoE模型与具有相同激活参数量的密集模型进行了比较,使用相同的硬件测量了它们的训练吞吐量。

尽管MoE总的参数量是密集模型的六倍多,但在实验中达到了超过80%的相对吞吐量,证实了使用GRIN MoE方法的模型具有显著的计算扩展潜力。

(PS:密集模型的吞吐量是在与MoE模型相同的并行度设置下测量的,这里的比较是为了研究密集激活网络(非MoE)和稀疏激活网络(MoE)的GPU内核效率)

此外,在扩大模型大小时,密集模型和MoE模型显示出相似的减速模式,比如6.6B密集模型的训练吞吐量大约比1.6B密集模型的训练吞吐量慢4.19倍(后者的参数少4倍)。同样,42B MoE模型的训练吞吐量比10B MoE 模型的训练吞吐量慢约3.96倍(对应参数少4.2倍)。

并行实验

在只使用pipeline并行的情况下,通过在GPU之间进一步划分不同层,可以将最大专家数量从16个扩展到32个。但是,如果再增加专家数量,则会导致单个层的参数过多,一个GPU就放不下了。

所以下一个维度采用张量并行。

专家并行在前向和后向计算中有两个all-to-all通信开销,而张量并行在前向和后向计算中有两个all-reduce通信开销。

相比之下all-reduce操作的延迟更高一点,但可以通过精心排布前向和反向的计算来overlap掉一部分开销。

图片

如上图所示,通过结合pipeline并行和张量并行,系统支持的最大专家数量扩展到52个(总共132B参数)。

这个数量是因为实验只用了64个GPU,最多能将模型划分为64个阶段,如果有更多的GPU,那么还能继续向上扩展。

不过作者也表示,使用更复杂的并行通常会导致计算吞吐量降低。

负载均衡

如前所述,本文没有采用专家并行,但是负载不均衡的事实依然存在。

作者在这里通过调整负载均衡损失来调节全局的负载均衡。常见的负载均衡损失定义为:

图片

其中α是超参数,n是专家数量,fi是调度给专家的token比例。

传统方法在本地不同的GPU上计算fi,因此负载均衡损失将调节本地专家负载均衡并缓解token丢弃。

在本文中,作者通过计算全局的fi(比如数据并行过程中组内的all-reduce)来修改负载均衡损失,调节专家负载以达到全局平衡。

尽管这种调整会产生额外的通信开销,但类似于张量并行,这些通信也可以与计算overlap,从而在很大程度上减少额外的延迟。

最后,放一个测试结果来show一下GRIN MoE的数学推理能力:

图片

作者注:我们对新发布的GAOKAO(即全国普通大学和学院入学统一考试)的数学问题进行案例研究,这是中国一年一度的全国本科入学考试。

该考试以其严格的安全协议而闻名,是评估AI模型回答数学问题的能力的理想测试平台。请注意,GRIN MoE的训练于太平洋标准时间6月3日结束,2024年GAOKAO于中国标准时间6月7日开始。

相关资讯

Mistral AI新模型对标GPT-4,不开源且与微软合作,网友:忘了初心

「欧洲版 OpenAI」的「最强开源大模型」,被微软收编了。生成式 AI 领域,又有重量级产品出现。周一晚间,Mistral AI 正式发布了「旗舰级」大模型 Mistral Large。与此前的一系列模型不同,这次 Mistral AI 发布的版本性能更强,体量更大,直接对标 OpenAI 的 GPT-4。而新模型的出现,也伴随着公司大方向的一次转型。随着 Mistral Large 上线,Mistral AI 推出了名为 Le Chat 的聊天助手(对标 ChatGPT),任何人都可以试试效果。试用链接:,Mi
2/27/2024 3:08:00 PM
机器之心

iPhone 上本地每秒生成 12 个 tokens,微软发布 phi-3-mini 模型:38 亿参数

微软研究院近日发布技术报告,公布了 Phi-3 系列 AI 模型,共有 mini(38 亿参数)、small(70 亿参数)和 medium(140 亿参数)三个版本。微软表示拥有 38 亿参数的 phi-3-mini 通过 3.3 万亿个 tokens 上训练,其基准跑分性能超出 Mixtral 8x7B 和 GPT-3.5。微软表示 phi-3-mini 模型可以部署在手机等设备上,在 27 亿参数的 Phi-2 模型上,进一步整合了严格过滤的网络数据和合成数据。微软也坦言 phi-3-mini 模型虽然通过优
4/23/2024 1:53:17 PM
故渊

消息称微软将推出自研新 AI 模型“MAI-1”,与谷歌、OpenAI 竞争

据 The Information 北京时间今晚报道,微软正在公司内部训练一个新的人工智能模型,其规模足以与谷歌、Anthropic,乃至 OpenAI 自身的先进模型相抗衡。报道称,这个新模型内部代号为“MAI-1”,由前谷歌 AI 领导人 Mustafa Suleyman 带队负责。在 Mustafa 进入微软之前,他曾担任初创公司 Inflection 的 CEO,直到今年 3 月微软支付 6.5 亿美元(IT之家备注:当前约 46.87 亿元人民币)购买该公司产权并雇佣大部分员工。图源 Pixabay微软的
5/6/2024 10:55:02 PM
清源

微软深夜再掀 AI 生产力革命:阿尔特曼登台“自曝”新模型、定制 Copilot

【新智元导读】微软昨夜刚上演了一波 AI PC 革命,今天又全是 Copilot。而最让人意外的,竟是阿尔特曼本人登台预告了下一代模型将会带来新的模态和整体智能。AI 生产力的革命,微软怎会缺席?在今天的开发者大会上,曾经誓要「颠覆」10 亿打工人的 Copilot,依然是全程的主角。▲ 没想到 70 年后,还是要靠微软重新定义软件不仅有 Copilot 加持的全新 AI PC,日常生活助手 Copilot,还有为全世界开发者提供的 AI 工具堆栈。更惊喜的是,Sam Altman 竟然在发布会的最后,被 CTO
5/22/2024 8:45:15 AM
汪淼

微软 Phi-3-vision 基准测试:和 Claude 3-haiku、Gemini 1.0 Pro 相当

微软在 Build 2024 大会上发布了 Phi-3 家族的最新成员--Phi-3-vision,主打“视觉能力”,能够理解图文内容,同时据称可以在移动平台上流畅高效运行。Phi-3-vision 是一款多模态小型语言模型(SLM),主要用于本地 AI 场景,该模型参数量为 42 亿,上下文长度为 128k token,能够为常规视觉推理任务和其他任务提供支持。那么 Phi-3-vision 有多厉害?微软今天发布了新的论文 [PDF],表示该 SLM 和 Claude 3-haiku、Gemini 1.0 Pr
5/28/2024 8:45:08 AM
故渊

微软正努力治疗 AI 幻觉,以技术手段实时屏蔽和重写毫无根据的信息

就在 GPT-4 因征服标准化测试而登上头条时,微软研究人员正在对其他 AI 模型进行一种非常另类的测试 —— 一种旨在让模型捏造信息的测试。为了治好这种被称为“AI 幻觉”的症状,他们设定了一个会让大多数人头疼的文本检索任务,然后跟踪并改进模型响应,这也是微软在测定、检测和缓解 AI 幻觉方面的一个例子。微软 AI 负责项目的首席产品官 Sarah Bird 表示,“微软希望其所有 AI 系统都是值得信赖且可以有效使用的”。我们可以向这个领域投入许多专家和资源,因此我们认为自己可以帮助阐明“应该如何负责任地使用新
6/21/2024 10:37:35 PM
问舟

微软为 Excel 等研发新 AI 模型:性能较常规方案提高 25.6%,词元使用成本降低 96%

根据微软最新公布的研究论文,计划为 Excel、谷歌 Sheets 等电子表格应用程序,开发全新的 AI 大语言模型--SpreadsheetLLM。研究人员表示现有电子表格应用程序具备丰富的功能,在布局和格式方面为用户提供大量的选项,因此传统 AI 大语言模型很难胜任电子表格处理场景。而 SpreadsheetLLM 就是专门为电子表格应用而设计的 AI 模型,微软还研发了 SheetCompressor(压缩电子表格),让 SpreadsheetLLM 能够更好地理解、处理电子表格数据。AI在线援引论文摘要部分
7/16/2024 9:30:28 AM
故渊

GitHub Copilot 拥抱多模型,将引入 Claude 3.5 Sonnet 和 Gemini 1.5 Pro

感谢GitHub CEO Thomas Dohmke 在官方博客宣布,GitHub Copilot 将不再仅仅依赖 OpenAI 的 GPT 模型,而是转向多模型策略。 未来几周内,Anthropic 的 Claude 3.5 Sonnet 将率先集成到 Copilot Chat 的 Web 和 VS Code 界面中,随后谷歌的 Gemini 1.5 Pro 也将加入。 此外,GitHub 还将支持更多 OpenAI 模型,包括 GPT o1-preview 和 o1-mini,这些模型在高级推理方面比 GPT-4 更强大。
10/30/2024 10:28:28 AM
远洋

微软Phi-4封神,14B小模型数学击败GPT-4o!合成数据占比40%,36页技术报告出炉

140亿参数,40%合成数据,年度SLM之王诞生! 最近,微软下一代小模型Phi-4正式亮相。 在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、Gemini Pro 1.5。
12/23/2024 9:38:00 AM
新智元

奥特曼承认:模型API业务将走向枯竭!微软秘密协曝光:给OpenAI的AGI新定义,至少能赚到1000亿美元利润!十年完不成!

编辑 | 伊风震惊! OpenAI和微软的秘密协议被曝光,其中定下了AGI的含义:至少能赚到1000亿美元利润的AI系统! 1000亿美元是个极其庞大的数字。
12/27/2024 1:01:50 PM
伊风

重大突破!微软发布“自我进化”,帮小模型超OpenAI-o1

微软亚洲研究院发布了一种创新算法——rStar-Math。 rStar-Math通过代码增强CoT、蒙特卡洛树搜索等,可以帮助小参数模型在不依赖老师模型蒸馏的情况下,实现多轮自我思维深度进化,极大增强模型的数学推理能力。 在美国数学竞赛AIME 2024测试中,rStar-Math平均解决了53.3%(8/15)的难题,超过了OpenAI o1-preview的44.6%,以及所有其他开源的大模型,成为最聪明的前20%高中数学生。
1/10/2025 9:25:00 AM
AIGC开放社区

《自然》重磅:微软推出MatterGen ,AI 颠覆材料设计

刚刚,顶尖学术期刊《自然》(Nature)刊发了一项具有里程碑意义的研究成果:微软研究院的研究团队成功开发了一种名为MatterGen的全新扩散生成模型。 MatterGen 的出现为材料科学的逆向设计开启了一个全新的篇章,它不仅能够生成覆盖整个元素周期表、稳定且多样的无机材料,而且能够通过微调,精确地控制所生成材料的化学成分、对称性以及包括磁性密度、力学性能、电子特性等在内的多种物理性质MatterGen的创新之处MatterGen之所以能够取得如此显著的突破,源于其在模型架构和训练方法上的多维度创新:1.  定制化的扩散过程: 针对晶体材料的特殊性,MatterGen引入了一套定制化的扩散过程,该过程可以独立地对原子类型、坐标和晶格进行扰动,并将其导向一个符合物理规律的随机分布。
1/17/2025 9:11:49 AM
AI寒武纪

OpenAI微软关系现裂痕,奥特曼紧急公关,导火索竟是DeepMind联创

一个5000亿美元的大动作,让微软不再是OpenAI独家云计算供应商了。 在OpenAI与甲骨文牵手组建数据中心那一刻起,网友们纷纷看向这个计划之外的微软:他们两个之间的关系约莫是出现裂痕了。 结果奥特曼紧急公关,不是你听我解释,这是形势所迫,为算力折腰啊啊。
1/23/2025 4:22:56 PM
量子位

微软开源创新框架:可将DeepSeek,变成AI Agent

微软在官网发布了视觉Agent解析框架OmniParser最新版本V2.0,可将DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型,变成可在计算机使用的AI Agent。 与V1版本相比,V2在检测较小的可交互UI元素时准确率更高、推理速度更快,延迟降低了60%。 在高分辨率Agent基准测试ScreenSpot Pro中,V2 GPT-4o的准确率达到了惊人的39.6%,而GPT-4o原始准确率只有0.8%,整体提升非常大。
2/17/2025 10:36:00 AM
AIGC开放社区

10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文反驳涌现

复刻DeepSeek的神话,还在继续。 之前,UC伯克利的博士只用30美元,就复刻了DeepSeek中的顿悟时刻,震惊圈内。 这一次,来自荷兰阿姆斯特丹的研究人员Raz,再次打破纪录,把复刻成本降到了史上最低——只要10美元,就能复现DeepSeek顿悟时刻!
2/24/2025 9:00:00 AM
新智元

微软急刹车,被曝撤掉大波数据中心租赁!DeepSeek冲击,算力泡沫要破?

一个月内,微软市值已暴跌了3171亿美元,时间点正好是从DeepSeek在华尔街掀起风暴开始。 而就在刚刚,根据Bloomberg透露,作为OpenAI的最大支持者,微软已经取消了部分AI数据中心的租赁。 具体来说,微软在美国至少与两家私人运营商取消了协议,总计取消了「数百兆瓦」的租赁,相当于大约两个数据中心。
2/25/2025 1:00:00 PM
新智元

微软发布 Phi-4 多模态与迷你模型,语音视觉文本处理再升级

近日,微软进一步扩展了 Phi-4家族,推出了两款新模型:Phi-4多模态(Phi-4-multimodal)和 Phi-4迷你(Phi-4-mini),这两款模型的亮相,无疑将为各类 AI 应用提供更加强大的处理能力。 Phi-4多模态模型是微软首款集成语音、视觉和文本处理的统一架构模型,拥有5600万参数。 这款模型在多项基准测试中表现优异,超越了目前市场上的许多竞争对手,例如谷歌的 Gemini2.0系列。
2/27/2025 9:38:00 AM
AI在线

微软开源多模态AI基础模型!无需额外微调轻松拿捏网页、机器人

微软研究院官宣开源多模态AI——Magma模型。 首个能在所处环境中理解多模态输入并将其与实际情况相联系的基础模型。 该模型近期已被计算机视觉顶会CVPR接收,只要给定一个目标描述,Magma就能制定计划、执行行动,无论是在数字界面中还是物理世界里,都能展现出灵活而高效的交互能力。
3/11/2025 9:35:00 AM
量子位
  • 1