在2025重庆世界智能产业博览会上,中科曙光联合20余家产业链上下游企业发布了国内首个AI计算开放架构及曙光AI超集群系统,标志着我国智能计算产业进入开放协作新阶段。该系统于9月5日正式亮相,是当前国内首个基于开放架构设计的AI算力基础设施,旨在解决高端算力供给不足、国产加速卡性能瓶颈等产业难题。
曙光AI超集群采用以GPU为核心的”算、存、网、电、冷、管、软”一体化紧耦合设计,具备四大核心优势:在性能方面,单机柜可搭载96张GPU卡,算力规模达百P级,访存总带宽超过180TB/s,支持多精度运算和百万卡级集群扩展;效率层面,千卡集群的大模型训练推理性能达业界主流水平2.3倍,开发效率提升4倍,通过存算传协同技术使GPU计算效率提高55%,394项节能设计实现PUE低于1.12;可靠性方面,采用121项RAS设计,平均无故障时间提升2.1倍,故障修复时间缩短47%,通过30天长稳测试并实现百万级部件故障秒级隔离。
区别于传统封闭系统,该架构最大创新在于开放性——硬件层面适配多品牌AI加速卡,软件兼容CUDA等主流生态,可降低用户50%以上的硬件成本和软件开发适配成本。中科曙光副总裁李斌表示,该架构通过联动产业链企业实现跨层协作优化,将推动从单点突破走向集群创新。为此,企业同步启动了”AI计算开放架构联合实验室”建设,依托国家先进计算产业创新中心开放多项技术能力。
据国际数据公司(IDC)报告显示,2024年中国智能算力规模同比增长74.1%,预计2025年将突破1037.3EFLOPS。曙光AI超集群的发布,为万亿参数大模型训练、行业模型微调及AI4S等场景提供了更高效的算力底座,其开放特性也有助于加速国产智能计算生态的成熟进程。
© 版权声明
文章版权归作者所有,未经允许请勿转载。