Meta REFRAG框架突破:LLM长上下文处理效率提升16倍,推理速度与精度兼得

Meta Superintelligence Labs近期发布了一项突破性研究成果——REFRAG框架,该技术通过重构基于检索增强生成(RAG)的解码流程,显著提升了大型语言模型(LLM)处理长上下文输入的效率。实验数据显示,其首token生成时间(TTFT)最高可加速30.8倍,在16k tokens场景下实现超16倍的性能提升,同时有效上下文窗口扩展至原有模型的16倍。

传统LLM在处理长文本时面临注意力机制计算复杂度随输入长度平方级增长的核心瓶颈。REFRAG创新性地采用四步流程:首先将输入文本分割为16个token的块并生成压缩向量;通过强化学习训练的”质检员”策略筛选关键信息片段;对非核心内容进行智能压缩;最终基于优化后的输入生成响应。这种选择性压缩机制使模型在GSM8K数学解题等任务中,即使上下文长度扩展8倍,推理速度仍提升1倍且准确率翻番。

值得注意的是,该框架在加速同时保持了模型精度。多轮对话、长文档摘要等场景测试表明,其困惑度及任务准确率与完整上下文基线模型持平,部分任务因信息密度提升反而获得性能增益。技术原理上,通过减少KV Cache存储需求和注意力计算开销,系统吞吐量得到显著改善。

研究团队指出,REFRAG的强化学习策略经过预训练对齐和困惑度约束微调,能可靠识别关键信息。该技术已开源相关论文,其设计理念适用于多语言场景,为客服机器人、法律助手等需要海量上下文支持的应用提供了可扩展的解决方案。这项突破标志着LLM从单纯追求参数量向优化计算效率的重要转向。

© 版权声明

相关文章