AI在线 AI在线

继良品率低后,英伟达Blackwell又出过热问题,说好的明年初发货呢?

发言人将「工程迭代」称为「正常且在意料之中」。 今年的的 GTC 大会,英伟达将 AI 芯片的标杆推向了难以想象的高度。 为了帮助世界构建更大、更智能的 AI,英伟达首先拿出了世界上最先进的 GPU—— Blackwell 系列。
发言人将「工程迭代」称为「正常且在意料之中」。
今年的的 GTC 大会,英伟达将 AI 芯片的标杆推向了难以想象的高度。为了帮助世界构建更大、更智能的 AI,英伟达首先拿出了世界上最先进的 GPU—— Blackwell 系列。图片Blackwell 拥有 2080 亿个晶体管,在同一颗芯片上集成了两个 GPU。其两块小芯片之间的互联速度高达 10TBps,彻底解决了内存瓶颈和缓存问题。与前代产品 H100 相比,Blackwell 的性能提升同样令人瞩目,达到了 Hopper 的 30 倍。图片以训练一个 1.8 万亿参数的 GPT 模型为例,如果使用 Hopper,需要 8000 个 GPU,消耗 15 兆瓦电力,训练 3 个月;而换成 Blackwell,仅需 2000 个 GPU,就能在同样的时间内完成,能耗只需 4 兆瓦,实现了性能和效率的双重突破。Blackwell 的量产问世,无疑将为 AI 模型训练和人形机器人的发展注入强劲动力,对整个 AI 应用生态也将产生深远影响。图片自 3 月份发布,6 月份宣布投产以来,Blackwell 最初定于 2024 年第二季度发货,全球科技公司都在疯狂求购。但在原定的发货时间,传出了 Blackwell 因为良品率低,将推迟发货的消息。当时,黄仁勋在 2025 财年第二季度财报电话会议上表示,设计上的问题都已修复,有望在第四季度实现量产。现在,英伟达的客户又在担心一个新问题,当芯片连接到 Nvidia 自己的服务器机架时,会过热。图片据 The Information 报道,英伟达 Blackwell GPU 在 72 核的服务器上暴露了过热隐患。这些服务器每个机架的功耗预计高达 120 千瓦,过热问题不仅限制了 GPU 的性能,还可能损坏组件。为此,英伟达不得不多次重新评估服务器机架的设计方案。图片这引发了谷歌、Meta 和微软等大客户对能否按时在其数据中心部署 Blackwell 的担忧。为此,英伟达已要求供应商对机架进行多项设计变更,进一步推迟了预期发货日期。该公司发言人将「工程迭代」描述为「正常且在意料之中」。图片此前,由于 GPU 良率不高的问题,Blackwell 的量产计划就推迟了一次。今年 8 月,有媒体称 Blackwell 存在设计缺陷。由于 Blackwell 是英伟达首个采用 MCM(多芯片封装)设计的 GPU,在同一个芯片上集成了两个 GPU。这种「二合一」的创新,显然不能再通过传统方式来打造。Blackwell 的 B100 和 B200 GPU 两个型号使用台积电的 CoWoS-L 封装技术连接两个芯片,该技术依赖于配备局部硅互连(LSI)桥接器的 RDL 中介层,以实现约 10 TB/s 的数据传输速。然而,由于 GPU 芯片、LSI 桥、RDL 中介层和主板基板之间的热膨胀特性不匹配,导致封装结构出现弯曲,从而引发系统故障。图片对此,黄仁勋表示:「我们的 Blackwell 芯片存在设计缺陷,虽然可以正常使用,但该设计缺陷导致良率低下」。更多详情可参见:《100% 英伟达的错:黄仁勋确认 Blackwell 缺陷修复,明年初出货》最终修订版的 Blackwell GPU 直至 10 月底才开始量产,这意味着英伟达最快也要等到明年 1 月底才能向客户交付这些处理器。而 Blackwell 正在面临前所未有的需求。近期,黄仁勋在摩根士丹利举办的投资者会议上透露,Blackwell 已经全部售罄。摩根士丹利分析师 Joe Moore 指出,英伟达高管称,Blackwell GPU 产品的订单积压已达 12 个月。AWS、CoreWeave、谷歌、Meta、微软和甲骨文等科技巨头,已经采购了英伟达及其制造合作伙伴台积电在未来四个季度内能生产的所有 Blackwell GPU。这种旺盛的需求表明,尽管 AMD、英特尔以及各大云服务商正努力分得一杯羹,英伟达在 AI GPU 的领导地位还将进一步巩固并扩大。作为人类历史上估值最高的股票,英伟达将于本周三公布收益。与 8 月份的情况相似,在类似的时间节点,又传出了有关下一代 Blackwell 芯片出问题的消息。图片在英伟达承认 Blackwell 存在设计缺陷导致良品率低后,当时刚创下历史新高的英伟达股票收跌 2.81 %,又回落到了 140 美元以下。图片这一次,英伟达的股价又会发生怎样的变化呢?参考链接:https://www.theinformation.com/articles/nvidia-customers-worry-about-snag-with-new-ai-chip-servershttps://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers

相关资讯

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

「这才是我理想中的 GPU。」—— 黄仁勋。「这不是演唱会。你们是来参加开发者大会的!」老黄出场时,现场爆发出了巨大的欢呼声。今天凌晨四点,加州圣何塞,全球市值第三大公司英伟达一年一度的 GTC 大会开始了。今年的 GTC 大会伴随着生成式 AI 技术爆发,以及英伟达市值的暴涨。相对的是,算力市场也在升温,硬件和软件方面的竞争都在加剧。而英伟达带来的产品,再次将 AI 芯片的标杆推向了难以想象的高度。「通用计算已经失去动力,现在我们需要更大的模型,我们需要更大的 GPU,更需要将 GPU 堆叠在一起。」黄仁勋说道。
3/19/2024 10:57:00 AM
机器之心

全球最强GPU芯片已量产、下一代Rubin曝光,老黄继续打破摩尔定律

黄仁勋:我家的 GPU 芯片一年一更新,其他家怎么追?昨晚,英伟达创始人、CEO 黄仁勋在 2024 年 COMPUTEX 科技大会上又为全球发烧友们、显卡买家们带来了一场重磅演讲。                               经典皮肤(皮衣)老黄亮相。在会上,黄仁勋分享了有关 AI 芯片及架构、加速计算、AI 理解物理世界、机器人的成果和洞见。量产版 Blackwell 亮相下一代 AI 平台 Rubin 两年后到来今年 3 月,英伟达在其一年一度的 GTC 大会上官宣了 2080 亿晶体管的 B
6/3/2024 4:02:00 PM
机器之心

100%英伟达的错:黄仁勋确认Blackwell缺陷修复,明年初出货

老黄:科技公司的芯片需求让我夜不能寐。 「我们的 Blackwell 芯片存在设计缺陷,虽然可以正常使用,但该设计缺陷导致良率低下,」黄仁勋表示。 「这 100% 是英伟达的错。
10/24/2024 1:16:00 PM
机器之心
  • 1