2025 金融 AI 推理应用落地与发展论坛在上海举行。中国银联执行副总裁涂晓军、华为数字金融军团 CEO 曹冲出席本次论坛并发表致辞。
论坛上,华为公司副总裁、数据存储产品线总裁周跃峰博士发布 AI 推理创新技术 ——UCM 推理记忆数据管理器,旨在推动 AI 推理体验升级,提升推理性价比,加速 AI 商业正循环。
同时,华为携手中国银联率先在金融典型场景开展 UCM 技术试点应用,并联合发布智慧金融 AI 推理加速方案应用成果。
当前,人工智能已步入发展深水区,AI 推理正成为下一个爆发式增长的关键阶段,推理体验和推理成本成为了衡量模型价值的黄金标尺。周跃峰在论坛上强调:“AI 时代,模型训练、推理效率与体验的量纲都以 Token 数为表征,Token 经济已经到来”。为保障流畅的推理体验,企业需持续加大算力投入,但如何在推理效率与成本之间找到最佳平衡点,成为了全行业亟待解决的重要课题。
为此,华为重磅推出 UCM 推理记忆数据管理器,包括对接不同引擎与算力的推理引擎插件(Connector)、支持多级 KV Cache 管理及加速算法的功能库(Accelerator)、高性能 KV Cache 存取适配器(Adapter)三大组件,通过推理框架、算力、存储三层协同,实现 AI 推理 “更优体验、更低成本”:
- 更优的推理体验:依托 UCM 层级化自适应的全局前缀缓存技术,系统能直接调用 KV 缓存数据,避免重复计算,使首 Token 时延最大降低 90%。同时,UCM 将超长序列 Cache 分层卸载至外置专业存储,通过算法创新突破模型和资源限制,实现推理上下文窗口 10 倍级扩展,满足长文本处理需求。
- 更低的推理成本:UCM 具备智能分级缓存能力,可根据记忆热度在 HBM、DRAM、SSD 等存储介质中实现按需流动;同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下 TPS(每秒处理 token 数)提升 2-22 倍,显著降低每 Token 推理成本,为企业减负增效。
在与中国银联的联合创新技术试点中,UCM 的技术价值得到充分验证。在中国银联 “客户之声” 业务场景下,借助 UCM 技术及工程化手段,大模型推理速度提升 125 倍,仅需 10 秒即可精准识别客户高频问题,促进服务质量提升。未来,中国银联将依托国家人工智能应用中试基地,联合华为等生态伙伴共建 “AI + 金融” 示范应用,推动技术成果从 “实验室验证” 走向 “规模化应用”。
论坛现场,华为正式公布了 UCM 开源计划。UCM 通过开放统一的南北向接口,可适配多类型推理引擎框架、算力及存储系统。今年 9 月,UCM 将正式开源,后续逐步贡献给业界主流推理引擎社区,携手全产业共同推动 AI 推理生态的繁荣发展。