10月31日,月之暗面正式开源其新型混合线性注意力架构Kimi Linear,该架构通过创新的Kimi Delta Attention(KDA)模块,首次在强化学习扩展等场景中超越传统Transformer的全注意力机制(Full Attention)。技术报告显示,这一架构将Key-Value(KV)缓存使用量降低75%,解码吞吐量提升最高达6倍,标志着注意力机制领域的重大突破。
Kimi Linear采用3:1的混合设计策略,每三个KDA层后插入一个全注意力层(MLA),兼具线性注意力的高效性与全注意力的强表达能力。其核心创新KDA基于Gated DeltaNet改进,通过通道级门控(channel-wise gate)机制实现细粒度记忆控制——不同特征维度可独立调节遗忘因子,例如对代码语法保留长期记忆,而对临时变量快速遗忘。这种设计使模型在1M tokens长上下文任务中,TPOT(Tokens Processed per Operating Time)指标较传统MLA提升6.3倍。
参数规模方面,预训练模型包含30亿激活参数和480亿总参数,采用专家混合(MoE)技术扩展容量而不显著增加计算成本。实验数据显示,在5.7T tokens训练数据支持下,该架构在数学推理等任务中准确率保持96.3%的同时,将128K文本的推理延迟从3.2秒压缩至0.8秒。阿里云已将其集成至PAI平台,微软也正评估其在Copilot产品线的应用潜力。
行业观察人士指出,Kimi Linear的混合架构为长文本处理提供了即插即用的解决方案,其硬件感知设计可能重塑Agent LLM的技术路线。随着模型权重与代码的全面开源,该技术或加速AI在智能客服、法律文书分析等高内存需求场景的落地进程。
© 版权声明
文章版权归作者所有,未经允许请勿转载。