华为开源UCM推理记忆数据管理技术,AI推理性能大幅提升

AI新闻资讯9小时前发布 AI视野

华为于11月5日正式宣布开源其AI推理加速关键技术UCM(Unified Cache Manager)推理记忆数据管理技术。该技术通过KV Cache多级缓存和记忆管理机制,结合推理框架、算力与存储的三层协同优化,显著提升了AI推理性能,尤其在处理长序列任务时有效解决了效率低、成本高的行业痛点。

UCM技术架构包含四大核心模块:UCM稀疏化模块作为统一基类,支持多种稀疏算法的灵活适配;稀疏化KV管理器实现算法策略与推理引擎解耦;KV Cache存储组件提供标准化存储接口;UCM连接器则确保数据在组件间高效传输。基于此架构,UCM具备稀疏注意力、前缀缓存、预填充卸载和异构PD解耦四项关键能力,经实测可降低首Token时延最高达90%,提升系统吞吐量22倍,并实现10倍级上下文窗口扩展。

目前,华为已在ModelEngine社区开放UCM基础框架与工具链,开发者可通过GitCode和GitHub双平台获取源代码及技术文档。该技术的开源将助力企业优化AI推理体验,降低对高端存储硬件的依赖,为资源受限场景提供可行性解决方案。

© 版权声明

相关文章