AI在线 AI在线

微软 Azure ND GB300 再创记录:每秒推理速度达 110 万token

微软近日宣布,其 Azure ND GB300v6虚拟机在 Meta 的 Llama270B 模型上实现了每秒推理速度达110万token的行业新纪录。 微软首席执行官萨提亚・纳德拉在社交媒体上表示:“这一成就是我们与英伟达长期合作和在生产规模运行人工智能方面专业知识的结晶。 ”Azure ND GB300虚拟机采用英伟达的 Blackwell Ultra GPU,具体为 NVIDIA GB300NVL72系统,配置了72个 NVIDIA Blackwell Ultra GPU 和36个 NVIDIA Grace CPU,采用单机架构设计。

微软近日宣布,其 Azure ND GB300v6虚拟机在 Meta 的 Llama270B 模型上实现了每秒推理速度达110万token的行业新纪录。微软首席执行官萨提亚・纳德拉在社交媒体上表示:“这一成就是我们与英伟达长期合作和在生产规模运行人工智能方面专业知识的结晶。”

微软

Azure ND GB300虚拟机采用英伟达的 Blackwell Ultra GPU,具体为 NVIDIA GB300NVL72系统,配置了72个 NVIDIA Blackwell Ultra GPU 和36个 NVIDIA Grace CPU,采用单机架构设计。这款虚拟机专为推理工作负载优化,具有50% 的 GPU 内存提升和16% 的热设计功率(TDP)提高。

为了验证性能提升,微软在一个 NVIDIA GB300NVL72域下的18台 ND GB300v6虚拟机上运行了 Llama270B(FP4精度)模型,使用 NVIDIA TensorRT-LLM 作为推理引擎。微软表示:“一个 NVL72机架的 Azure ND GB300v6实现了总计110万个token每秒的推理速度。” 这一新记录超越了微软之前在 NVIDIA GB200NVL72机架上实现的865,000token每秒的成绩。

根据系统配置,每个 GPU 的性能大约为15,200token每秒。微软还提供了详细的模拟过程和所有日志文件及结果。该性能记录经过了独立的性能验证和基准测试公司 Signal65的验证。

Signal65的实验室副总裁拉斯・费洛斯在博客中指出:“这一里程碑不仅突破了每秒百万token的障碍,还在一个能够满足现代企业动态使用和数据治理需求的平台上实现。” 他补充道,Azure ND GB300相较于上一代 NVIDIA GB200在推理性能上提升了27%,而仅增加了17% 的功率规格。与 NVIDIA H100代相比,GB300在推理性能上几乎提升了10倍,同时在机架级别的功率效率上提高了近2.5倍。

划重点:  

🚀 微软 Azure ND GB300v6虚拟机实现每秒推理110万token,创造行业新纪录。  

💻 该虚拟机配置72个 NVIDIA Blackwell Ultra GPU 和36个 NVIDIA Grace CPU,专为推理优化。  

📈 相比上一代,Azure ND GB300在推理性能上提升27%,功率效率提升近2.5倍。

相关资讯

微软解绑:OpenAI 获更大 AI 算力自主权,携手软银、甲骨文等启动 5000 亿美元“星际之门”项目

微软公司昨日(1 月 21 日)发布公告,宣布调整和 OpenAI 公司的合作关系,允许 OpenAI 使用竞争对手的计算资源。此次调整旨在满足 OpenAI 日益增长的算力需求,并缓解双方因算力供应问题产生的摩擦。
1/22/2025 7:59:04 AM
故渊

马斯克质疑星际之门“没钱”,微软 CEO 纳德拉回应“我的 800 亿美元好着呢”

在达沃斯世界经济论坛间隙面对CNBC记者提问时,纳德拉淡然回应马斯克的担忧:“我只知道,我的800亿美元资金没问题。”
1/23/2025 4:20:30 PM
清源

Salesforce CEO 贝尼奥夫:微软未来可能不会再依赖 OpenAI

在达沃斯世界经济论坛上,Salesforce CEO 马克・贝尼奥夫(Marc Benioff)在接受 CNBC 采访时,谈及微软与 OpenAI 之间新出现的裂痕时不禁笑出声来。贝尼奥夫预测道:“我认为 OpenAI 迅速转向其他平台非常重要,因为微软正在开发自己的人工智能技术,未来可能不会再依赖 OpenAI。他们会有自己的前沿模型。”他笑着补充道:“这就是为什么他们聘请了穆斯塔法・苏莱曼(Mustafa Suleyman)。而苏莱曼和萨姆・阿尔特曼(Sam Altman)可不是好朋友。”
1/23/2025 6:51:57 PM
远洋
  • 1