破解效率与成本难题：华为UCM技术推动AI推理体验升级

作者：新闻助手 2025-08-12 05:24

2025 金融 AI 推理应用落地与发展论坛在上海举行。中国银联执行副总裁涂晓军、华为数字金融军团 CEO 曹冲出席本次论坛并发表致辞。论坛上，华为公司副总裁、数据存储产品线总裁周跃峰博士发布 AI 推理创新技术 ——UCM 推理记忆数据管理器，旨在推动 AI 推理体验升级，提升推理性价比，加速 AI 商业正循环。

2025 金融 AI 推理应用落地与发展论坛在上海举行。中国银联执行副总裁涂晓军、华为数字金融军团 CEO 曹冲出席本次论坛并发表致辞。

论坛上，华为公司副总裁、数据存储产品线总裁周跃峰博士发布 AI 推理创新技术 ——UCM 推理记忆数据管理器，旨在推动 AI 推理体验升级，提升推理性价比，加速 AI 商业正循环。

同时，华为携手中国银联率先在金融典型场景开展 UCM 技术试点应用，并联合发布智慧金融 AI 推理加速方案应用成果。

破解效率与成本难题：华为UCM技术推动AI推理体验升级

当前，人工智能已步入发展深水区，AI 推理正成为下一个爆发式增长的关键阶段，推理体验和推理成本成为了衡量模型价值的黄金标尺。周跃峰在论坛上强调：“AI 时代，模型训练、推理效率与体验的量纲都以 Token 数为表征，Token 经济已经到来”。为保障流畅的推理体验，企业需持续加大算力投入，但如何在推理效率与成本之间找到最佳平衡点，成为了全行业亟待解决的重要课题。

为此，华为重磅推出 UCM 推理记忆数据管理器，包括对接不同引擎与算力的推理引擎插件（Connector）、支持多级 KV Cache 管理及加速算法的功能库（Accelerator）、高性能 KV Cache 存取适配器（Adapter）三大组件，通过推理框架、算力、存储三层协同，实现 AI 推理 “更优体验、更低成本”：

更优的推理体验：依托 UCM 层级化自适应的全局前缀缓存技术，系统能直接调用 KV 缓存数据，避免重复计算，使首 Token 时延最大降低 90%。同时，UCM 将超长序列 Cache 分层卸载至外置专业存储，通过算法创新突破模型和资源限制，实现推理上下文窗口 10 倍级扩展，满足长文本处理需求。
更低的推理成本：UCM 具备智能分级缓存能力，可根据记忆热度在 HBM、DRAM、SSD 等存储介质中实现按需流动；同时融合多种稀疏注意力算法，实现存算深度协同，使长序列场景下 TPS（每秒处理 token 数）提升 2-22 倍，显著降低每 Token 推理成本，为企业减负增效。

破解效率与成本难题：华为UCM技术推动AI推理体验升级

在与中国银联的联合创新技术试点中，UCM 的技术价值得到充分验证。在中国银联 “客户之声” 业务场景下，借助 UCM 技术及工程化手段，大模型推理速度提升 125 倍，仅需 10 秒即可精准识别客户高频问题，促进服务质量提升。未来，中国银联将依托国家人工智能应用中试基地，联合华为等生态伙伴共建 “AI + 金融” 示范应用，推动技术成果从 “实验室验证” 走向 “规模化应用”。

论坛现场，华为正式公布了 UCM 开源计划。UCM 通过开放统一的南北向接口，可适配多类型推理引擎框架、算力及存储系统。今年 9 月，UCM 将正式开源，后续逐步贡献给业界主流推理引擎社区，携手全产业共同推动 AI 推理生态的繁荣发展。

破解效率与成本难题：华为UCM技术推动AI推理体验升级

相关资讯

华为 ModelEngine AI 平台支持 DeepSeek 全系列本地部署

华为CloudMatrix384超节点支持DeepSeek-V3.2-Exp：第一时间上线

鸿蒙开源、首款 5G-A 人形机器人获大额融资，乐聚机器人将引领未来智能制造！