微软与英伟达近日联合宣布,其Azure ND GB300 v6虚拟机在Meta的Llama2 70B模型上实现了每秒110万token的AI推理速度,刷新了行业纪录。这一突破性成果于11月4日公布,标志着双方在人工智能基础设施领域的合作达到新高度。
Azure ND GB300 v6虚拟机采用英伟达Blackwell Ultra GPU架构,具体配置为NVIDIA GB300NVL72系统,集成72颗Blackwell Ultra GPU和36颗Grace CPU,采用单机架设计。该方案针对推理任务优化,GPU内存容量提升50%,热设计功耗(TDP)效率提高16%。微软首席执行官萨提亚・纳德拉强调,这一成就源于双方长期的技术协同及大规模AI部署经验。
性能测试显示,单个NVL72机架可实现总计110万token/秒的吞吐量,较此前基于NVIDIA GB200NVL72机架的865,000 token/秒纪录提升27%。按GPU细分,每颗Blackwell Ultra GPU的推理性能约15,200 token/秒。与上代H100相比,新系统在机架级能效上实现近2.5倍提升,推理性能增长达10倍。
为确保结果公信力,微软委托独立机构Signal65进行验证。该机构实验室副总裁拉斯・费洛斯指出,此次突破不仅跨越了百万token/秒的技术门槛,更在满足企业级数据治理需求的同时实现了显著的能效优化。测试采用MLPerf Inference v5.1基准,使用FP4精度及NVIDIA TensorRT-LLM推理引擎,完整测试数据与日志已公开。
此次合作成果将强化Azure云平台在AI工作负载领域的竞争力,为大规模语言模型部署提供新的性能标杆。微软表示,该技术方案已具备商业化应用条件,可支持企业构建高性能AI推理服务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。