英伟达近日正式发布OpenReasoning-Nemotron推理模型套件,这一创新成果在数学推理领域实现重大突破,其性能已超越行业标杆o3模型。该系列基于Qwen2.5架构开发,通过蒸馏6710亿参数的DeepSeek R1 0528大模型,形成1.5B、7B、14B和32B四种参数规格,显著降低了高级推理实验的硬件门槛,使得标准游戏电脑即可实现本地部署。
技术层面,该模型依托NeMo Skills生成的500万条数学、科学与编程解答数据集,采用纯监督学习微调方式。测试数据显示,32B版本在AIME24数学竞赛中获得89.2分,在HMMT2月赛中取得73.8分,其表现已超越OpenAI o3-high模型。值得注意的是,1.5B最小模型在相同测试中分别获得55.5和31.5分,展现出参数规模与性能的正相关性。
研究团队发现,7B及以上参数模型展现出显著进步,但不同规模模型呈现出差异化特征:部分版本擅长工具使用但推理较弱,另一些则表现出更强的纯推理能力。英伟达研究科学家Igor Gitman强调,该模型实现了从单纯token预测到真正推理能力的跨越,这得益于对DeepSeek R1 0528模型在500万条推理轨迹上的蒸馏训练。
为促进科研应用,英伟达已在Hugging Face平台开放完整模型检查点,支持”GenSelect”多解答生成模式。用户可通过LM Studio工具在主流操作系统实现本地运行,具体操作包括在搜索栏输入”openreasoning”获取对应版本。此次发布未引入强化学习环节,为后续研究保留了干净的基线模型。
业界分析指出,该套件的推出不仅降低了AI推理的硬件成本,其卓越的数学推理能力更为科研、教育领域带来新的可能性。随着模型性能的持续优化,预计将在学术研究、竞赛辅导等场景产生深远影响。
© 版权声明
文章版权归作者所有,未经允许请勿转载。