近日,艾伦人工智能研究所(AI2)机器学习科学家Nathan Lambert发表了一篇深度技术博客,系统剖析了强化学习与推理模型(RLVR)领域的最新进展,并透露其团队正致力于打造对标DeepSeek-R1级别的开源推理模型。这一动向被业界视为美国学术界对当前AI竞赛格局的积极回应。
Lambert在题为《基础模型强化学习论文精读》的专题研究中指出,当前推理大模型的迭代速度已呈现”天级别”跃进,但真正具备技术突破价值的成果仍属稀缺。他特别以DeepSeek R1采用的GRPO算法为例,详细解构了该模型在思维链推理和开源生态建设上的双重优势。值得注意的是,博客中披露的RLVR训练框架显示,其团队已成功复现OpenReasonerZero完整训练流程,这为开发自主可控的推理模型奠定了技术基础。
作为曾在HuggingFace领导RLHF团队的技术专家,Lambert强调开源社区对推动AI民主化至关重要。他在分析Kimi k1.5与DeepSeek R1同期发布的技术报告时指出,详实的训练日志和可复现的baseline正在成为行业新标准。这种透明化趋势与其倡导的”美国版DeepSeek”理念高度契合——即通过开放模型权重和训练细节,降低行业技术门槛。
值得关注的是,Lex Fridman在近期播客中曾评价称,DeepSeek系列模型的地缘技术意义不仅体现在性能指标上,更在于其开创的开源推理范式。Lambert团队此次的技术路线披露,某种程度上可视为对这种范式的学术验证。目前,该团队尚未公布具体模型发布时间表,但其公开的GRPO改进方案已显示出在计算效率和泛化能力上的优化潜力。
业内人士分析,随着DeepSeek-R2等新一代模型即将面世,全球开源推理模型的竞争已进入白热化阶段。Lambert团队的介入,或将推动形成中美双极的技术演进格局。不过也有专家提醒,要实现真正匹敌商业级大模型的性能,学术机构仍需在计算资源和工程化能力上寻求突破。
© 版权声明
文章版权归作者所有,未经允许请勿转载。