华为FlashComm技术助力大模型推理提速80%

作者：AI在线 2025-05-22 04:00

在全球人工智能发展的浪潮中，模型推理的速度和效率愈发成为焦点。近期，华为的数学团队在 DeepSeek 开源周期间推出了名为 FlashComm 的新技术，旨在通过三项创新措施，大幅提升大模型推理的性能，最高可达80% 的速度提升。首先，FlashComm 技术重点优化了 AllReduce 通信操作。

在全球人工智能发展的浪潮中，模型推理的速度和效率愈发成为焦点。近期，华为的数学团队在 DeepSeek 开源周期间推出了名为 FlashComm 的新技术，旨在通过三项创新措施，大幅提升大模型推理的性能，最高可达80% 的速度提升。

首先，FlashComm 技术重点优化了 AllReduce 通信操作。传统的 AllReduce 方法就像一辆装满货物的集装箱车，不够灵活。华为团队通过智能化手段，将数据分为两部分:先进行 ReduceScatter，然后再进行 AllGather。这一重组过程使得后续的通信量减少了35%，同时关键计算量也减少到原来的1/8，推理性能提升了22% 到26%。

其次，在推理过程中，华为发现可以通过调整矩阵乘法的并行维度来减轻通信负担。在保持结果精确的前提下，三维张量被 “压扁” 成二维矩阵，结合 INT8量化技术，数据传输量骤降86%，整体推理速度提升33%。这一策略就像将大型货物装入小型集装箱，让数据传输变得更加高效。

最后，华为的多流并行技术打破了传统串行计算的局限。在 MoE 模型的推理过程中，华为团队将复杂的计算流程进行拆解和重组，借助昇腾硬件的多流引擎实现了三条计算流的精准并行。这种方法可以在一组数据进行专家计算的同时，另一组数据已经进入门控决策阶段，从而最大限度地提高计算效率。

FlashComm 的发布标志着华为在大模型推理领域的一次重大技术突破。这不仅将提升模型的推理速度，还将推动人工智能应用的发展，为科研和工业领域的 AI 应用带来新的机遇。

华为推新技术优化大模型推理：UCM 技术缓解 HBM 依赖

8月12日，华为将在 2025金融AI推理应用落地与发展论坛上发布突破性 AI 推理创新技术 UCM（推理记忆数据管理器）。该技术有望降低中国 AI 推理对 HBM（高带宽内存）的依赖，并显著提升国内大模型推理性能。 UCM 以 KV Cache 为核心，融合多类型缓存加速算法工具，通过分级管理推理过程中产生的记忆数据，扩大上下文窗口，实现高吞吐、低时延的推理体验，并降低每 Token 的推理成本。

8/12/2025 5:20:46 PM

AI在线

新型语言模型 Huginn：突破推理界限无需语言即可“思考”

近日，来自图宾根埃利斯研究所、马里兰大学和劳伦斯利弗莫尔国家实验室的研究团队，开发出名为 Huginn 的新型语言模型，该模型采用递归架构，显著提升了推理能力。与传统模型不同，Huginn 无需专门的“推理链”训练，便可在神经网络的“潜在空间”内自主推理，再输出结果。研究团队开发出名为 Huginn 的新型语言模型，该模型采用递归架构，显著提升了推理能力。

2/25/2025 9:39:00 AM

AI在线

突破Claude-4编程上限！自进化Agent框架拿下新SOTA，已开源

突破多步推理瓶颈，让Claude-3.7-Sonnet解题成功率暴增20.6%。在SWE-Bench Verified上刷新开源框架SOTA！中科院、清华大学、阶跃星辰等提出SE-Agent，一个创新的自进化（Self-Evolution）框架。

8/19/2025 5:38:07 PM

明敏

华为FlashComm技术助力大模型推理提速80%

相关资讯

华为推新技术优化大模型推理：UCM 技术缓解 HBM 依赖

新型语言模型 Huginn：突破推理界限 无需语言即可“思考”

突破Claude-4编程上限！自进化Agent框架拿下新SOTA，已开源

新型语言模型 Huginn：突破推理界限无需语言即可“思考”