苹果突破性MTP技术:大语言模型响应速度提升5倍

AI新闻资讯8小时前发布 AI视野

苹果公司近日公布了一项名为“多token预测”(MTP)的突破性技术,该技术通过并行生成机制显著提升大语言模型(LLM)的响应速度,最高可达传统自回归方式的5倍。这一进展基于苹果研究团队在论文《Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential》中的核心发现:尽管现有模型仅被训练为预测单个后续词,但其内部隐含对多词序列的潜在判断能力。

传统LLM采用逐词生成的串行机制,例如生成“The cat is black”时需依次计算每个词的概率,导致移动端响应延迟明显。MTP技术通过引入“掩码”token作为占位符,允许模型并行推测最多8个后续token,并采用动态验证机制——当并行推测结果与标准自回归解码不一致时,系统自动回退至逐词生成模式,确保输出质量不受影响。实验数据显示,基于开源模型Tulu3-8B的测试中,问答和对话任务速度平均提升2-3倍,代码生成及数学推理等结构化任务加速比更达5倍。

值得注意的是,该技术通过“门控LoRA适配”模块动态调节参数,仅在预测置信度高时激活并行推测,既降低能耗又保持精度。这一创新为端侧AI部署提供了新范式,未来可能集成至Siri等苹果生态服务中,解决移动设备实时交互的瓶颈问题。目前技术仍处于研究阶段,但其兼容现有模型架构的特性,显示出较强的商业化落地潜力。

© 版权声明

相关文章