华为推新技术优化大模型推理：UCM 技术缓解 HBM 依赖

作者：AI在线 2025-08-12 05:20

8月12日，华为将在 2025金融AI推理应用落地与发展论坛上发布突破性 AI 推理创新技术 UCM（推理记忆数据管理器）。该技术有望降低中国 AI 推理对 HBM（高带宽内存）的依赖，并显著提升国内大模型推理性能。 UCM 以 KV Cache 为核心，融合多类型缓存加速算法工具，通过分级管理推理过程中产生的记忆数据，扩大上下文窗口，实现高吞吐、低时延的推理体验，并降低每 Token 的推理成本。

8月12日，华为将在 2025金融AI推理应用落地与发展论坛上发布突破性 AI 推理创新技术 UCM（推理记忆数据管理器）。该技术有望降低中国 AI 推理对 HBM（高带宽内存）的依赖，并显著提升国内大模型推理性能。

UCM 以 KV Cache 为核心，融合多类型缓存加速算法工具，通过分级管理推理过程中产生的记忆数据，扩大上下文窗口，实现高吞吐、低时延的推理体验，并降低每 Token 的推理成本。这一方案可缓解 HBM 资源不足带来的任务卡顿与响应延迟问题。

大模型元宇宙 (2)

在此次论坛上，华为将与中国银联共同发布 AI 推理最新应用成果。信通院、清华大学、科大讯飞等机构专家也将分享大模型推理加速与体验优化的实践。华为数据存储产品线副总裁樊杰表示，未来 AI 突破将高度依赖高质量行业数据的释放，高性能 AI 存储可将数据加载时间从小时级缩短至分钟级，使算力集群效率从30% 提升至60%。

业内分析认为，UCM 的推出正值 AI 产业从“追求模型能力极限”转向“追求推理体验最优化”的关键节点，推理体验已成为衡量 AI 商业价值的重要标准。长城证券指出，随着大模型能力持续提升与商业场景扩展，算力及产业链公司有望迎来新的发展机遇。

讯飞星火X1升级版即将上线，深度推理能力再攀高峰

近日，科大讯飞通过其官方公众号宣布，备受关注的讯飞星火 X1升级版将于7月25日正式上线。这款深度推理大模型依托全国产算力进行训练，升级后的星火 X1将为用户带来一系列令人期待的功能和性能提升。在综合能力方面，星火 X1升级版表现尤为突出。

7/23/2025 5:32:56 PM

AI在线

华为FlashComm技术助力大模型推理提速80%

在全球人工智能发展的浪潮中，模型推理的速度和效率愈发成为焦点。近期，华为的数学团队在 DeepSeek 开源周期间推出了名为 FlashComm 的新技术，旨在通过三项创新措施，大幅提升大模型推理的性能，最高可达80% 的速度提升。首先，FlashComm 技术重点优化了 AllReduce 通信操作。

5/22/2025 4:00:55 PM

AI在线

新型语言模型 Huginn：突破推理界限无需语言即可“思考”

近日，来自图宾根埃利斯研究所、马里兰大学和劳伦斯利弗莫尔国家实验室的研究团队，开发出名为 Huginn 的新型语言模型，该模型采用递归架构，显著提升了推理能力。与传统模型不同，Huginn 无需专门的“推理链”训练，便可在神经网络的“潜在空间”内自主推理，再输出结果。研究团队开发出名为 Huginn 的新型语言模型，该模型采用递归架构，显著提升了推理能力。

2/25/2025 9:39:00 AM

AI在线

华为推新技术优化大模型推理：UCM 技术缓解 HBM 依赖

相关资讯

讯飞星火X1升级版即将上线，深度推理能力再攀高峰

华为FlashComm技术助力大模型推理提速80%

新型语言模型 Huginn：突破推理界限 无需语言即可“思考”

新型语言模型 Huginn：突破推理界限无需语言即可“思考”