微软Azure与英伟达Blackwell Ultra GPU实现每秒110万token AI推理新纪录

AI产品动态2个月前发布 AI视野

微软与英伟达近日联合宣布，其Azure ND GB300 v6虚拟机在Meta的Llama2 70B模型上实现了每秒110万token的AI推理速度，刷新了行业纪录。这一突破性成果于11月4日公布，标志着双方在人工智能基础设施领域的合作达到新高度。

Azure ND GB300 v6虚拟机采用英伟达Blackwell Ultra GPU架构，具体配置为NVIDIA GB300NVL72系统，集成72颗Blackwell Ultra GPU和36颗Grace CPU，采用单机架设计。该方案针对推理任务优化，GPU内存容量提升50%，热设计功耗（TDP）效率提高16%。微软首席执行官萨提亚・纳德拉强调，这一成就源于双方长期的技术协同及大规模AI部署经验。

性能测试显示，单个NVL72机架可实现总计110万token/秒的吞吐量，较此前基于NVIDIA GB200NVL72机架的865,000 token/秒纪录提升27%。按GPU细分，每颗Blackwell Ultra GPU的推理性能约15,200 token/秒。与上代H100相比，新系统在机架级能效上实现近2.5倍提升，推理性能增长达10倍。

为确保结果公信力，微软委托独立机构Signal65进行验证。该机构实验室副总裁拉斯・费洛斯指出，此次突破不仅跨越了百万token/秒的技术门槛，更在满足企业级数据治理需求的同时实现了显著的能效优化。测试采用MLPerf Inference v5.1基准，使用FP4精度及NVIDIA TensorRT-LLM推理引擎，完整测试数据与日志已公开。

此次合作成果将强化Azure云平台在AI工作负载领域的竞争力，为大规模语言模型部署提供新的性能标杆。微软表示，该技术方案已具备商业化应用条件，可支持企业构建高性能AI推理服务。

文章版权归作者所有，未经允许请勿转载。

微软Azure与英伟达Blackwell Ultra GPU实现每秒110万token AI推理新纪录

苹果联手谷歌！Siri将搭载Gemini 2.5 Pro实现三大突破

小鹏发布最拟人机器人IRON：2250TOPS算力+仿生架构，2026年量产

相关文章

PayPal与Venmo用户专享：免费获取Perplexity Pro年费订阅及AI浏览器Comet优先体验

Meta豪掷15亿美元在得州建AI数据中心，2028年投运支撑万亿级算力需求

甲骨文CDS飙升至16年新高，AI投资热潮下的金融风险预警信号

苹果推出革命性AI图像生成系统STARFlow，挑战DALL-E与Midjourney市场地位

最新资讯

热门AI工具

热门资讯