Kimi近日开源了一款名为Checkpoint-Engine的轻量级中间件,专为大语言模型(LLM)推理引擎设计。该技术实现了在数千块GPU集群环境下,仅需约20秒即可完成万亿级参数模型的权重更新,效率较传统方案显著提升。
Checkpoint-Engine采用创新技术架构,支持广播(同步)与点对点(P2P,动态)两种更新模式,可适配不同训练拓扑需求。通过通信与数据拷贝重叠的流水线优化技术,该中间件能够最大化硬件利用率。其轻量级设计与灵活部署特性,可有效降低大规模集群的资源消耗与运维成本。
该中间件主要应用于强化学习场景,在大语言模型推理过程中实现高效的权重更新。Kimi-K2模型采用混合共置架构,将训练引擎和推理引擎部署在同一组工作节点上。Checkpoint-Engine作为关键组件,解决了随着模型规模扩大带来的引擎切换与故障恢复延迟问题。
技术实现上,Checkpoint-Engine在训练节点部署分布式检查点引擎管理参数状态。参数更新时,每个检查点工作节点首先从训练引擎获取参数本地副本,随后广播完整参数集至所有检查点节点。推理引擎只需从检查点引擎检索所需参数分片即可,大幅减少了磁盘IO开销。
值得注意的是,该系统具备良好的容错能力。当某个推理副本出现故障时,可独立重启而无需与其他副本通信,显著提升了系统的可靠性。实测表明,该技术可将GPU空转时间从分钟级降至秒级,磁盘IO节省达40%。
目前该项目已在GitHub平台正式开源,旨在通过社区协作推动大模型推理优化技术的生态发展。这一突破性进展为大型语言模型的实时更新提供了标准化解决方案,有望加速AI应用落地进程。
© 版权声明
文章版权归作者所有,未经允许请勿转载。