2025年8月21日,深度求索(DeepSeek)正式发布新一代大语言模型DeepSeek-V3.1,其核心技术创新在于采用专为国产芯片设计的UE8M0 FP8精度格式,标志着国产AI生态从硬件适配到软件优化的闭环构建取得关键突破。该版本通过动态范围扩展技术显著提升计算稳定性与效率,尤其在华为昇腾910C芯片上实现“低卡高能”部署——单颗昇腾910C在推理任务中性能可达国际旗舰芯片H100的60%,而华为CloudMatrix 384超节点技术更通过384颗昇腾芯片协同运算,将算力密度推升至300PFLOPs。
技术架构上,V3.1引入混合推理设计,支持思考模式与非思考模式动态切换,配合思维链压缩训练使输出token减少20%-50%的同时保持任务精度。实测显示,在适配昇腾芯片的FP8精度支持下,模型显存占用降至传统方案的25%-50%,计算能耗仅0.18W/TFLOPS,推理速度提升2-3倍。这一优化直接推动国产芯片在金融、医疗等高算力场景的落地可行性,部署成本降低超30%。
产业生态层面,华为昇腾与DeepSeek的深度协同成为典型案例。华为云昇腾云服务已实现与DeepSeek R1/V3系列模型的完整推理链适配,其自研加速引擎使性能比肩国际高端GPU方案。华西证券分析指出,此类软硬一体化创新正加速国产算力链条的“外部受阻、内部突破”进程,预计2025年中国AI算力市场规模将突破1200亿元。华安证券进一步强调,V3.1的技术迭代已带动芯片、服务器、云服务的联动优化,为AI Agent商业化及垂类大模型研发提供自主可控的基础设施。
值得注意的是,除昇腾外,寒武纪等国产芯片厂商也通过南京智算中心等场景与DeepSeek开展联合验证。招商ETF研报认为,这种“模型-芯片-行业应用”的三元协同模式,正在政策引导下切入关键领域,逐步打破国际技术垄断格局。随着8月26日英特尔Gaudi 2E加速器宣布对V3.1的深度优化支持,国产AI生态呈现出开放兼容与自主创新并行的独特发展路径。
© 版权声明
文章版权归作者所有,未经允许请勿转载。