华为发布UCM推理加速技术,助力金融AI应用效率提升

8月12日,在2025金融AI推理应用落地与发展论坛上,华为正式发布AI推理创新技术UCM(推理记忆数据管理器)。中国银联执行副总裁涂晓军与华为数字金融军团CEO曹冲共同出席论坛,双方宣布已在中国银联“客户之声”“营销策划”“办公助手”三大业务场景中开展UCM技术试点,并联合发布智慧金融AI推理加速方案应用成果。

UCM技术是以KV Cache为核心的推理加速套件,通过融合多类型缓存加速算法工具,实现推理过程中KV Cache记忆数据的分级管理。该技术能显著扩大推理上下文窗口,提升吞吐量并降低时延,使长序列场景下的每秒处理Token数(TPS)提升2至22倍,从而降低单Token推理成本。华为数据存储产品线总裁周跃峰指出,当前国内主流AI大模型的单用户输出速度普遍低于60 Tokens/s,而UCM技术有望缩小与国际头部模型(200 Tokens/s)的差距。

值得注意的是,UCM通过按需流动机制在HBM、DRAM、SSD等存储介质间动态分配数据,结合稀疏注意力算法实现存算协同,可缓解行业对高带宽内存(HBM)的过度依赖。华为数据存储产品线副总裁樊杰强调,高性能存储系统能将数据加载时间从数小时压缩至数分钟,对AI推理效率提升具有倍增效应。

华为宣布将于2025年9月正式开源UCM技术,首发平台为魔擎社区,后续将逐步贡献至主流推理引擎社区,并向采用“共享一切”(Share Everything)架构的存储厂商及生态伙伴开放。中国银联表示,将联合华为依托国家人工智能应用中试基地,推动AI推理技术从实验室验证向规模化应用转化。

据IDC预测,到2027年中国智能算力中推理算力占比将达72.6%。信通院人工智能研究所曹峰认为,随着大模型服务调用量激增,基础设施重心正加速向推理侧转移。华为此次技术发布,被视为应对“推不动、推得慢、推得贵”行业痛点的关键突破。

© 版权声明

相关文章