AI在线 AI在线

推理,AI,UCM,华为,体验,模型,HBM,数据,提升,存储

华为推新技术优化大模型推理:UCM 技术缓解 HBM 依赖

8月12日,华为将在 2025金融AI推理应用落地与发展论坛 上发布突破性 AI 推理创新技术 UCM(推理记忆数据管理器)。 该技术有望降低中国 AI 推理对 HBM(高带宽内存)的依赖,并显著提升国内大模型推理性能。 UCM 以 KV Cache 为核心,融合多类型缓存加速算法工具,通过分级管理推理过程中产生的记忆数据,扩大上下文窗口,实现高吞吐、低时延的推理体验,并降低每 Token 的推理成本。
8/12/2025 5:20:46 PM
AI在线
  • 1