清华大学联合团队突破搜索智能体训练瓶颈:自搜索强化学习(SSRL)实现高效Sim2Real迁移

由清华大学、上海人工智能实验室及上海交通大学等机构联合完成的最新研究提出了一种名为自搜索强化学习(SSRL)的创新方法,显著提升了搜索智能体(Search Agent)的训练效率与稳定性。该研究由上海AI Lab博士生樊钰辰主导,清华大学周伯文教授担任通讯作者,相关成果已于2025年8月通过预印本平台公开发布。

传统搜索智能体的训练主要依赖两种方式:一是直接调用商业搜索引擎API或本地知识库的“全真实搜索”,二是利用辅助大语言模型模拟搜索行为的“半真实搜索”。前者因高昂的API调用成本和硬件负担难以规模化,后者则存在模拟环境与真实场景的差距问题。研究团队发现,大语言模型(LLM)内部蕴含的世界知识若被有效提取,可突破现有训练瓶颈。

SSRL通过结构化提示(structured prompt)和格式化奖励(format reward)机制,系统性激发LLM内部知识的利用效率,在多项基准测试中表现优于传统方法。实验表明,该方法不仅能降低模型幻觉现象,还首次实现了LLM智能体从模拟训练到真实场景迁移(Sim2Real)的有效性验证——经SSRL训练的模型接入真实搜索引擎后,性能进一步提升。

研究团队已将全部训练数据、模型细节及代码开源,相关资源可通过GitHub仓库及论文链接获取。这一成果为降低搜索智能体的训练成本与时间提供了新范式,同时为LLM领域的世界知识挖掘与迁移学习提供了重要参考。

© 版权声明

相关文章