华为发布UCM推理加速技术，助力金融AI应用效率提升

AI新闻资讯4个月前发布 AI视野

8月12日，在2025金融AI推理应用落地与发展论坛上，华为正式发布AI推理创新技术UCM（推理记忆数据管理器）。中国银联执行副总裁涂晓军与华为数字金融军团CEO曹冲共同出席论坛，双方宣布已在中国银联“客户之声”“营销策划”“办公助手”三大业务场景中开展UCM技术试点，并联合发布智慧金融AI推理加速方案应用成果。

UCM技术是以KV Cache为核心的推理加速套件，通过融合多类型缓存加速算法工具，实现推理过程中KV Cache记忆数据的分级管理。该技术能显著扩大推理上下文窗口，提升吞吐量并降低时延，使长序列场景下的每秒处理Token数（TPS）提升2至22倍，从而降低单Token推理成本。华为数据存储产品线总裁周跃峰指出，当前国内主流AI大模型的单用户输出速度普遍低于60 Tokens/s，而UCM技术有望缩小与国际头部模型（200 Tokens/s）的差距。

值得注意的是，UCM通过按需流动机制在HBM、DRAM、SSD等存储介质间动态分配数据，结合稀疏注意力算法实现存算协同，可缓解行业对高带宽内存（HBM）的过度依赖。华为数据存储产品线副总裁樊杰强调，高性能存储系统能将数据加载时间从数小时压缩至数分钟，对AI推理效率提升具有倍增效应。

华为宣布将于2025年9月正式开源UCM技术，首发平台为魔擎社区，后续将逐步贡献至主流推理引擎社区，并向采用“共享一切”（Share Everything）架构的存储厂商及生态伙伴开放。中国银联表示，将联合华为依托国家人工智能应用中试基地，推动AI推理技术从实验室验证向规模化应用转化。

据IDC预测，到2027年中国智能算力中推理算力占比将达72.6%。信通院人工智能研究所曹峰认为，随着大模型服务调用量激增，基础设施重心正加速向推理侧转移。华为此次技术发布，被视为应对“推不动、推得慢、推得贵”行业痛点的关键突破。

AI新闻资讯 # AI推理 # UCM技术 # 华为 # 推理加速 # 金融科技

文章版权归作者所有，未经允许请勿转载。

华为发布UCM推理加速技术，助力金融AI应用效率提升

宇树科技携Unitree R1亮相首届世界人形机器人运动会，AI足球赛成焦点

阿里巴巴启动千人AI人才招聘计划，加速多模态AI生态布局

相关文章

ETH突破性AI技术：微型机器人血管导航成功率高达90%

腾讯DeepGEM病理大模型突破肺癌基因突变预测，1分钟实现精准检测

LunaPath推出AI物流优化平台，效率提升61%成本大幅降低

谷歌AI路线图揭示Transformer架构局限性，核心创新瞄准无限上下文突破

最新资讯

热门AI工具

热门资讯