微软开源rStar2-Agent数学推理模型:140亿参数超越6710亿大模型,主动式强化学习突破

微软研究院近日开源了其最新研发的rStar2-Agent数学推理模型,该模型凭借仅140亿参数的规模,在多项数学推理任务中超越了参数量高达6710亿的DeepSeek-R1等主流大模型,引发业界广泛关注。这一突破性成果于2025年9月2日通过技术报告及代码发布,标志着主动式强化学习(Agentic Reinforcement Learning)在提升模型推理能力方面取得重大进展。

rStar2-Agent的核心创新在于其独特的主动式强化学习架构。该模型通过构建高吞吐量的独立代码环境,可支持45,000个并发工具调用,平均执行反馈延迟仅0.3秒。研究团队特别设计了负载均衡的rollout调度程序,显著提升了强化学习的训练效率。在仅使用64块MI300X GPU的条件下,仅耗时一周即完成模型训练。

性能测试显示,该模型在AIME24数学竞赛数据集上达到80.6%的准确率,超越DeepSeek-R1和Claude Opus 4.0等竞争对手。其在AIME25和HMMT25数据集上分别取得69.8%和52.7%的优异成绩。值得注意的是,该模型展现出卓越的泛化能力,不仅在GPQA-Diamond科学推理基准测试中优于DeepSeek-V3,还在BFCLv3工具使用任务和IFeval等通用基准测试中表现突出。

技术实现层面,研究团队突破了传统思维链(CoT)方法的局限性,通过建立模型与专用工具环境的动态交互机制,使模型能够根据实时反馈自主调整推理路径。这种方法有效解决了复杂数学问题中存在的中间错误检测和创造性推理转换等关键难题,实现了”更聪明”的推理过程。该成果为小参数模型实现高性能推理提供了新的技术范式,对降低大模型计算成本具有重要实践意义。

© 版权声明

相关文章