Meta突破性ExIt方法发布:单步训练实现LLM多步自我改进,性能提升22%

Meta超级智能实验室(MSL)近期发布了一项突破性研究成果——探索迭代(Exploratory Iteration, ExIt)方法,该方法通过单步训练实现大语言模型(LLM)的多步自我改进,在MLE-Bench测试集上性能较传统GRPO方法提升22%。这一成果于2025年9月9日通过预印本论文公开,标志着大模型训练范式的重要革新。

ExIt的核心创新在于将模型生成的”残血答案”转化为训练资源。与传统多步推理-重训的循环不同,该方法要求模型在同一步训练中尝试多种修正路径,包括故意偏离主线的”自我发散”行为。实验显示,这种策略能生成更丰富的任务变体,相当于为模型提供动态扩展的题库。在数学推理任务中,ExIt不仅减少25%的训练步数,还使模型在测试阶段展现出超越训练时长的推理深度,类似运动员在比赛中突破训练极限的表现。

技术实现上,ExIt采用强化学习框架构建自动课程学习系统。模型通过”回收利用”历史生成内容作为新起点,结合可学习性评分机制自主优化任务难度梯度。值得注意的是,该方法特别适用于需要渐进式改进的场景,如自动编程、客服话术优化等,可将传统需数周的迭代周期压缩至数天。

针对可能产生的输出不稳定性,实验数据表明ExIt生成的任务点在向量空间中分布更接近人类创作模式。团队在16k长文本处理测试中同步验证了该方法的高效性,首词延迟从41秒降至1.3秒,显存占用减少6倍。这些进展为大模型的商业化部署提供了新的可能性,特别是在资源受限环境下的实时应用场景。

目前该技术已在GitHub开源,研究团队建议开发者优先在需要高频迭代的任务中验证其效果。随着ExIt方法的普及,预计将显著降低大模型应用的算力门槛和迭代成本。

© 版权声明

相关文章