DeepSeek R2模型发布延迟:技术难题与芯片供应成关键阻碍

AI产品动态19小时前发布 AI视野

DeepSeek R2模型的发布计划近期成为人工智能领域关注的焦点。该模型原定于2025年5月面世,但截至目前仍未正式推出。多方消息显示,技术难题与芯片适配问题成为延迟发布的关键因素。

据英国《金融时报》等媒体报道,DeepSeek在研发过程中面临双重挑战。一方面,公司创始人梁文锋对模型当前性能表现不满意,要求团队继续优化;另一方面,芯片供应问题严重影响了研发进度。由于美国对英伟达H20芯片实施出口限制,导致该型号芯片在中国市场供应短缺。DeepSeek此前训练R1模型时使用了包括3万块H20在内的5万块Hopper架构GPU,而H20的断供直接影响了R2的训练资源。

为应对这一局面,DeepSeek尝试转向国产替代方案,与华为展开深度合作。华为已派遣工程师团队进驻DeepSeek,协助其使用昇腾芯片进行模型开发。然而在实际操作中,团队遇到了昇腾平台在训练任务中的稳定性不足、软硬件支持不完善以及芯片间通信速度较慢等技术障碍。这些问题迫使DeepSeek采取折中方案:训练阶段继续使用英伟达芯片,而推理阶段则尝试适配昇腾平台。

业内人士指出,这一情况反映出中国AI芯片在关键任务上仍面临挑战。与成熟的英伟达产品相比,国产芯片在稳定性、连接速度和软件生态方面存在差距。尽管如此,DeepSeek仍坚持与华为保持合作,力求在推理环节实现昇腾平台的兼容性。

除芯片问题外,模型性能优化和数据标注工作耗时超出预期也是导致延期的重要原因。梁文锋在内部强调,公司目标是打造能够保持行业领先地位的先进模型,而非仅仅追求按时发布。最新消息显示,R2模型可能在未来几周内推出,但具体时间表仍未最终确定。

这一事件凸显了全球AI竞赛中的技术供应链风险,也展示了中国科技企业在自主创新道路上面临的挑战与决心。行业观察人士认为,尽管当前遇到困难,但随着技术积累和生态完善,国产AI芯片的发展前景仍然值得期待。

© 版权声明

相关文章