DeepSeekMath-V2发布:首个IMO金牌水平开源数学推理模型,自验证框架突破技术瓶颈

数学推理领域迎来重大技术突破。DeepSeek团队于11月27日正式发布DeepSeekMath-V2模型,该模型凭借创新的自验证训练框架,在国际顶级数学竞赛中展现出媲美人类金牌选手的实力。作为首个达到国际数学奥林匹克竞赛(IMO)金牌水平的开源模型,其技术成果已在Hugging Face和GitHub平台全面公开。

该模型在2025年IMO竞赛中成功解决6道题目中的5道,达到金牌标准;在中国数学奥林匹克(CMO 2024)和普特南数学竞赛(Putnam 2024)中分别斩获金牌和118/120的接近满分成绩。基准测试显示,在IMO-ProofBench的Basic子集上,其99%的得分显著领先谷歌Gemini DeepThink(89%),但在Advanced子集上以61.9%略逊于后者的65.7%。

技术架构方面,模型突破传统强化学习仅关注最终答案的局限,构建了”作者-审稿人”双LLM协作系统。生成模型负责数学证明创作,验证模型则通过元验证层进行过程审查,两者形成强化学习闭环。实验表明,这种设计使模型能自主识别证明过程中的逻辑缺陷,而非简单匹配标准答案。为降低人工标注成本,团队开发了多层自动化验证流程,通过交叉检验和共识决策机制,其评估结果与专家判断的一致性达实用水平。

研究团队指出,该框架验证了自验证数学推理的可行性,为构建可靠数学智能系统提供了新范式。在金融衍生品定价、航空软件验证等需要严格推导的领域,该技术预计可将人工审计成本降低80%。模型开源发布后,已在开发者社区引发广泛关注,被视为开源AI在复杂推理领域对标闭源巨头的重要里程碑。

目前,DeepSeekMath-V2的模型权重和完整技术文档已通过Apache 2.0许可证开放下载,研究团队表示将继续优化模型在高级数学问题上的表现,并探索该框架在代码验证、法律推理等领域的扩展应用。

© 版权声明

相关文章