华为开源UCM推理记忆数据管理技术,AI推理性能大幅提升 华为开源UCM推理记忆数据管理技术,通过稀疏化模块和KV Cache优化,实现首Token时延降低90%、吞吐量提升22倍,推动AI推理高效低成本发展。 AI新闻资讯# AI推理# KVCache# ModelEngine 14小时前