2025年6月17日至18日,人工智能领域迎来重要技术突破。月之暗面(Moonshot AI)正式发布开源代码大模型Kimi-Dev-72B,专为软件工程任务设计,并在权威编程基准测试SWE-bench Verified中以60.4%的成绩刷新开源模型纪录,超越参数量达671B的DeepSeek-R1(0528版),成为当前开源领域的性能标杆。
技术突破与性能表现
Kimi-Dev-72B通过大规模强化学习优化,能够在Docker环境中自主修复真实代码仓库,且仅在测试套件全部通过时获得奖励机制,确保解决方案的准确性与鲁棒性。其设计融合了BugFixer与TestWriter双重功能,支持BF16精度,并基于Qwen2.5-72B基础模型进行中期训练,使用约1500亿高质量真实数据构建数据配方,模拟人类开发者推理GitHub问题、编写修复及单元测试的全流程。
值得注意的是,该模型虽参数量仅为72B,却在SWE-bench中超越包括DeepSeek-R1在内的多款大参数模型,甚至部分闭源模型如OpenAI o3和GPT-4.1,仅次于Google Gemini 2.5 Pro(0605版)。
开源生态与行业影响
目前,Kimi-Dev-72B已上线Hugging Face和GitHub,供开发者自由下载与部署。其高效能和小参数特性,为降低企业AI应用成本提供了新选择,同时推动AI辅助软件开发工具的普及。月之暗面团队表示,未来将持续优化模型在复杂工程场景中的泛化能力。
此次发布正值AI编程模型竞争白热化阶段,Kimi-Dev-72B的突出表现或重塑开源社区技术格局,进一步加速AI与软件工程的深度融合。
© 版权声明
文章版权归作者所有,未经允许请勿转载。