微软开源rStar2-Agent数学推理模型:140亿参数超越6710亿大模型,主动式强化学习突破 微软研究院开源rStar2-Agent数学推理模型,仅140亿参数超越6710亿参数大模型。基于主动式强化学习架构,实现高效训练和卓越泛化能力,降低计算成本,推动AI推理技术发展。 AI产品动态# AI模型# 主动式强化学习# 小参数模型 3天前