AI在线 AI在线

华为FlashComm技术助力大模型推理提速80%

在全球人工智能发展的浪潮中,模型推理的速度和效率愈发成为焦点。 近期,华为的数学团队在 DeepSeek 开源周期间推出了名为 FlashComm 的新技术,旨在通过三项创新措施,大幅提升大模型推理的性能,最高可达80% 的速度提升。 首先,FlashComm 技术重点优化了 AllReduce 通信操作。

在全球人工智能发展的浪潮中,模型推理的速度和效率愈发成为焦点。近期,华为的数学团队在 DeepSeek 开源周期间推出了名为 FlashComm 的新技术,旨在通过三项创新措施,大幅提升大模型推理的性能,最高可达80% 的速度提升。

首先,FlashComm 技术重点优化了 AllReduce 通信操作。传统的 AllReduce 方法就像一辆装满货物的集装箱车,不够灵活。华为团队通过智能化手段,将数据分为两部分:先进行 ReduceScatter,然后再进行 AllGather。这一重组过程使得后续的通信量减少了35%,同时关键计算量也减少到原来的1/8,推理性能提升了22% 到26%。

image.png

其次,在推理过程中,华为发现可以通过调整矩阵乘法的并行维度来减轻通信负担。在保持结果精确的前提下,三维张量被 “压扁” 成二维矩阵,结合 INT8量化技术,数据传输量骤降86%,整体推理速度提升33%。这一策略就像将大型货物装入小型集装箱,让数据传输变得更加高效。

image.png

最后,华为的多流并行技术打破了传统串行计算的局限。在 MoE 模型的推理过程中,华为团队将复杂的计算流程进行拆解和重组,借助昇腾硬件的多流引擎实现了三条计算流的精准并行。这种方法可以在一组数据进行专家计算的同时,另一组数据已经进入门控决策阶段,从而最大限度地提高计算效率。

image.png

FlashComm 的发布标志着华为在大模型推理领域的一次重大技术突破。这不仅将提升模型的推理速度,还将推动人工智能应用的发展,为科研和工业领域的 AI 应用带来新的机遇。

相关资讯

新型语言模型 Huginn:突破推理界限 无需语言即可“思考”

近日,来自图宾根埃利斯研究所、马里兰大学和劳伦斯利弗莫尔国家实验室的研究团队,开发出名为 Huginn 的新型语言模型,该模型采用递归架构,显著提升了推理能力。 与传统模型不同,Huginn 无需专门的“推理链”训练,便可在神经网络的“潜在空间”内自主推理,再输出结果。 研究团队开发出名为 Huginn 的新型语言模型,该模型采用递归架构,显著提升了推理能力。
2/25/2025 9:39:00 AM
AI在线

讯飞星火 Lite API 能力免费开放:在线联网搜索、低算力推理场景

感谢科大讯飞今日官宣,旗下讯飞星火 Lite API 永久免费开放,支持在线联网搜索、适用于低算力推理与模型精调等定制化场景。IT之家注:讯飞星火 Pro / Max API 价格为:0.21 元 / 万 tokens。据介绍,1token 相当于 1.5 个中文汉字,用户付费 0.21 元即可调用“讯飞星火 3.5 Max”生成一部“余华《活着》”的内容量。讯飞星火大模型 V3.5 发布于今年 1 月,该模型带来七大能力提升:文本生成提升 7.3%,语言理解提升 7.6%,知识问答提升 4.7%,逻辑推理提升 9
5/22/2024 10:39:07 AM
归泷(实习)

工信部:我国生成式人工智能服务大模型的注册用户已超 6 亿

据央视新闻报道,工业和信息化部昨日表示,目前我国生成式人工智能服务大模型的注册用户数量已突破 6 亿。图源 Pixabay据工业和信息化部总工程师赵志国介绍,我国人工智能核心产业的规模在不断提升,企业数量超过了 4500 家。完成备案并上线为公众提供服务的生成式人工智能服务大模型近 200 个,注册用户超过 6 亿。
10/13/2024 7:34:50 AM
远洋
  • 1