谷歌突破性研究:嵌套学习解决大模型灾难性遗忘问题,Hope模型性能大幅提升

谷歌研究院近日在NeurIPS 2025会议上发布了一项突破性研究,提出名为“嵌套学习”(Nested Learning)的全新机器学习范式,旨在解决大语言模型长期存在的“灾难性遗忘”问题。这一创新通过重新定义模型架构与优化算法的关系,为人工智能实现类似人脑的持续学习能力提供了新的技术路径。

灾难性遗忘是当前大语言模型面临的核心挑战之一。当模型学习新任务时,原有任务的性能会大幅下降,这与人类大脑通过神经可塑性持续积累知识的能力形成鲜明对比。传统方法将模型架构与优化算法视为独立部分,导致学习系统效率受限。

嵌套学习范式的核心创新在于将复杂模型视为由多层次优化问题组成的嵌套系统。该理论认为,模型架构和优化算法本质上是同一概念的不同表现形式,每个层级都有独立的信息流和更新速率。这一视角为AI设计开辟了全新维度,使构建具有更深计算深度的学习组件成为可能。

研究团队基于该范式开发了两项关键技术:深度优化器和连续体内存系统(CMS)。深度优化器将优化过程转化为可学习模块,增强了对噪声数据的鲁棒性;CMS则模拟人类记忆机制,通过多时间尺度的内存模块实现从短期到长期记忆的平滑过渡。

为验证理论有效性,团队构建了名为“Hope”的概念验证模型。Hope采用自修改循环网络架构,深度整合CMS系统,在多项测试中展现出卓越性能。在标准语言建模任务中,其困惑度较传统循环网络降低37%,常识推理准确率提升29%。特别值得注意的是,在128K token长度的“大海捞针”测试中,Hope的信息检索准确率达到92%,较标准Transformer模型提升41个百分点。

这项研究标志着人工智能向具备持续学习能力的通用系统迈出重要一步。嵌套学习不仅为解决灾难性遗忘提供了新思路,也为开发能够真正“温故知新”的AI系统奠定了理论基础。随着技术发展,该范式有望推动大模型在医疗、教育等需要长期知识积累的领域实现更广泛应用。

© 版权声明

相关文章