微软近日宣布其首个分布式“AI超级工厂”正式投入运营,标志着人工智能基础设施进入网络化协同新阶段。该设施通过连接位于威斯康星州Mt Pleasant和佐治亚州亚特兰大的两座最新一代Fairwater数据中心,构建了一个跨州协作的虚拟超级计算机集群。
这两座双层架构的数据中心均配备英伟达GB200 NVL72机架系统,采用近乎零用水量的液冷技术,在提升算力密度的同时实现能效优化。通过专为AI流量设计的广域网(AI WAN),两地实现了数十万颗先进GPU、EB级存储空间与数百万CPU核心的资源整合,形成可支持数千亿参数模型训练的分布式计算平台。微软Azure基础设施负责人表示,这种架构突破了单一数据中心的物理限制,将复杂AI训练任务的周期从数月缩短至数周。
该项目的核心技术突破在于新型网络架构。微软部署了12万英里专用光纤构建高速通道,使数据能以接近光速传输,确保跨站点训练任务的无缝协同。公司强调,这种分布式设计不仅能分散区域电网压力,更可灵活应对未来数万亿参数模型的算力需求。
作为微软340亿美元季度资本开支的重点项目,AI超级工厂将服务于OpenAI、Copilot及Mistral AI等核心客户。行业分析显示,科技巨头今年AI相关投资总额预计达4000亿美元,而微软通过此项目确立了从单点建设向网络化布局的战略转型,在日益激烈的算力竞赛中占据先机。公司透露,未来两年计划将数据中心规模扩大一倍,持续强化其AI基础设施领导地位。
© 版权声明
文章版权归作者所有,未经允许请勿转载。