GPU

如何为深度学习选择优秀 GPU ？

Hello folks，我是 Luga，今天我们继续来聊一下人工智能生态相关技术 - 用于加速构建 AI 核心算力的 GPU 硬件技术。众所周知，对于绝大多数的深度学习模型的训练，尤其是参数规模较为庞大的模型，其往往是整个开发流程中最耗时、资源消耗最大的环节。在传统的 CPU .

11/25/2024 4:15:14 PM

架构驿站

英特尔演示资料显示未来将推 AI 芯片 Jaguar Shores

"Jaguar Shores" 很可能是英特尔计划 2025 年推出的 AI GPU 芯片 "Falcon Shores" 的后继产品。

11/20/2024 5:14:45 PM

溯波（实习）

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

现阶段这一方案的前景如何？我们尚不得而知。未来 GPU 的发展方向，居然和钻石有关系？

11/18/2024 1:27:00 PM

机器之心

探秘全球最大 AI 集群 xAI Colossus：122 天建成，10 万张英伟达 H100 构筑马斯克 AI 愿景

科技媒体 servethehome 昨日（10 月 28 日）发布博文，应 xAI 公司邀请，参观了 Colossus 全球最大 AI 训练集群。 AI在线曾于今年 9 月报道，xAI 在 Supermicro 的帮助下，在短短 122 天时间内搭建 10 万张英伟达 H100，而该公司计划未来将再翻倍增加 10 万张 GPU，其中 5 万张为更先进的 H200。 xAI Colossus 配备了英伟达 HGX H100 服务器，每台服务器内含 8 张 H100 GPU，所有服务器都在 Supermicro 的 4U 水冷系统中运行，确保高效散热。

10/29/2024 4:50:52 PM

故渊

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

科技媒体 marktechpost 昨日（10 月 18 日）发布博文，报道称微软公司开源了 bitnet.cpp，这是一个能够直接在 CPU 上运行、超高效的 1-bit 大语言模型（LLM）推理框架。用户通过 bitnet.cpp 框架，不需要借助 GPU，也能在本地设备上运行具有 1000 亿参数的大语言模型，实现 6.17 倍的速度提升，且能耗可以降低 82.2%。传统大语言模型通常需要庞大的 GPU 基础设施和大量电力，导致部署和维护成本高昂，而小型企业和个人用户因缺乏先进硬件而难以接触这些技术，而 bitnet.cpp 框架通过降低硬件要求，吸引更多用户以更低的成本使用 AI 技术。

10/19/2024 3:08:57 PM

故渊

中国算力大会，联想重磅发布两款明星算力新品

9月27日，为期3天的2024中国算力大会正式拉开帷幕。在大会异构智算产业生态联盟技术论坛上，联想集团正式发布新一代AI服务器联想问天WA7880a G3和联想AIPod应用部署解决方案两款重磅产品和解决方案。联想AI基础设施“一横五纵”的战略版图进一步丰富和完善。联想问天WA7880a G3是针对AI大模型训练推出的新一代AI服务器，具备多元算力、灵活配置和节能高效三大特点。它也是国内首款支持OAM 2.0模组的服务器，可兼容国内主流GPU厂商的OAM GPU；在配置选择上支持CPU和GPU之间单上行和双上行拓扑

9/27/2024 4:56:00 PM

新闻助手

AI 江湖“饭局”：马斯克、埃里森晚宴上向黄仁勋求购英伟达 GPU

甲骨文创始人拉里・埃里森在公司最新财报电话会议上透露了一段轶事，他表示，自己曾与特斯拉 CEO 埃隆・马斯克一起，亲自向英伟达 CEO 黄仁勋求购最新的 AI GPU。在位于帕洛阿尔托的 Nobu 餐厅，埃里森和马斯克向黄仁勋恳求向他们供应英伟达的最新 GPU，“我们向他乞求，请卖给我们，不，多卖给我们，越多越好，我们都需要，拜托了。”埃里森回忆道，“最后事情进展顺利，起作用了。”这次晚餐显然非常成功，埃里森和甲骨文得到了他们想要的 GPU。该公司最近宣布将打造一个名为 Zettascale AI 的超算集群，由

9/14/2024 9:04:44 PM

远洋

马斯克 xAI 上线全球最大 AI 训练集群：122 天搭建 10 万张英伟达 H100，未来几月将翻倍至 20 万张

埃隆・马斯克（Elon Musk）昨日（9 月 3 日）在 X 平台发布推文，宣布 xAI 打造的超级 AI 训练集群 Colossus 已经正式上线。马斯克在推文中表示，超级 AI 训练集群 Colossus 搭建用时 122 天，共有 10 万张英伟达 H100 GPU 加速卡，而在未来几个月将再翻倍增加 10 万张 GPU，其中 5 万张为更先进的 H200。英伟达数据中心官方账号随后转发马斯克该条推文，表示 Colossus 是全球最大规模的超级 AI 训练集群。AI在线附上相关对比，谷歌目前使用了 9 万

9/4/2024 4:03:01 PM

故渊

Meta 构建分布式 RoCEv2 网络：探索串联数万片 GPU，训练千亿参数级 AI 模型

Meta 公司于 8 月 5 日发布博文，表示为了满足大规模分布式 AI 训练对网络的需求，构建了基于 RoCEv2 协议的大规模 AI 网络。RoCEv2 的全称是 RDMA Over Converged Ethernet version 2，是一种节点间通信传输方式，用于大部分人工智能容量。Meta 公司已成功扩展了 RoCE 网络，从原型发展到部署了众多集群，每个集群可容纳数千个 GPU。这些 RoCE 集群支持广泛的生产型分布式 GPU 训练工作，包括排名、内容推荐、内容理解、自然语言处理和 GenAI 模

8/7/2024 7:35:32 AM

故渊

图灵奖得主 LeCun 加盟 AI 芯片黑马 Groq，估值 28 亿美元挑战英伟达

英伟达又双叒迎来强劲挑战者了。成立于 2016 年的初创公司 Groq 在最新一轮融资中筹集了 6.4 亿美元，由 BlackRock Inc. 基金领投，并得到了思科和三星投资部门的支持。目前，Groq 的估值已经达到 28 亿美元。公司创始人 Jonathan Ross 曾在谷歌从事 TPU 芯片的开发，而 Groq 目前的顶梁柱 LPU 也是专门用于加速 AI 基础模型，尤其是 LLM。Ross 表示，一旦人们看到在 Groq 的快速引擎上使用大语言模型有多么方便，LLM 的使用量将会进一步增加。以更低的价格

8/6/2024 2:42:53 PM

远洋

小扎自曝砸重金训 Meta Llama 4 模型：24 万块 GPU 齐发力，预计 2025 年发布

Llama 3.1 刚发布不久，Llama 4 已完全投入训练中。这几天，小扎在二季度财报会上称，Meta 将用 Llama 3 的十倍计算量，训练下一代多模态 Llama 4，预计在 2025 年发布。这笔账单，老黄又成为最大赢家十倍计算量，是什么概念？要知道，Llama 3 是在两个拥有 24,000 块 GPU 集群完成训练。也就是说，Llama 4 训练要用 24 万块 GPU。那么，Meta 存货还够不够？还记得小扎曾在年初宣布，计划到年底要部署 35 万块英伟达 H100。他还透露了更多的细节，Meta

8/5/2024 1:30:22 PM

汪淼

Llama3.1 训练平均 3 小时故障一次，H100 万卡集群好脆弱，气温波动都会影响吞吐量

每 3 个小时 1 次、平均 1 天 8 次，Llama 3.1 405B 预训练老出故障，H100 是罪魁祸首？最近有人从 Meta 发布的 92 页超长 Llama 3.1 论文中发现了华点：Llama 3.1 在为期 54 天的预训练期间，经历了共 466 次任务中断。其中只有 47 次是计划内的，419 次纯属意外，意外中 78% 已确认或怀疑是硬件问题导致。而且 GPU 问题最严重，占了 58.7%。Llama 3.1 405 模型是在一个含 16384 块 Nvidia H100 80GB GPU 集群

7/29/2024 5:54:34 PM

清源

Meta 训练 Llama 3 遭遇频繁故障：16384 块 H100 GPU 训练集群每 3 小时“罢工”一次

Meta 发布的一份研究报告显示，其用于训练 4050 亿参数模型 Llama 3 的 16384 个英伟达 H100 显卡集群在 54 天内出现了 419 次意外故障，平均每三小时就有一次。其中，一半以上的故障是由显卡或其搭载的高带宽内存（HBM3）引起的。由于系统规模巨大且任务高度同步，单个显卡故障可能导致整个训练任务中断，需要重新开始。尽管如此，Meta 团队还是保持了 90% 以上的有效训练时间。AI在线注意到，在为期 54 天的预预训练中，共出现了 466 次工作中断，其中 47 次是计划中断，419 次

7/28/2024 7:20:54 PM

远洋

马斯克的“世界最强大 AI 数据中心”目前由 14 台移动发电机供电，引环保担忧

埃隆・马斯克的孟菲斯超级计算集群（Memphis Supercluster）已上线，据马斯克介绍称，该集群在单个 RDMA fabric 上使用 10 万张液冷 H100，是“世界上最强大的 AI 训练集群”。如此庞大的算力自然需要惊人的电力供应，每个 H100 GPU 至少消耗 700 瓦电力，这意味着整个数据中心同时运行需要超过 70 兆瓦的电力，这还不包括其他服务器、网络和冷却设备的耗电量。令人惊讶的是，由于与当地电网的供电协议尚未敲定，马斯克目前使用 14 台大型移动发电机为这个巨型设施供电。AI 和半导体

7/24/2024 8:13:09 PM

远洋

第四范式发布先知AIOS 5.1，升级支持GPU资源池化功能

今天，第四范式先知AIOS 5.1版本正式发布。该版本新增GPU资源池化（vGPU）能力，实现对硬件集群平台化管理、算力资源的按需分配和快速调度，最多节省80%的硬件成本，提高GPU综合利用率多达5-10倍。第四范式先知AIOS 5是行业大模型开发及管理平台。平台以提升企业核心竞争力为目标，在支持接入企业各类模态数据的基础上，提供大模型训练、精调等低门槛建模工具、科学家创新服务体系、北极星策略管理平台、大模型纳管平台、主流算力适配优化等能力，实现端到端的行业大模型的构建、部署、管理服务。在行业大模型的构建过程中，为

7/23/2024 3:09:00 PM

新闻助手

投资巨头高盛质疑 AI 投资回报：巨额投入能否换来光明未来？

全球知名投行高盛 (Goldman Sachs) 近期对人工智能 (AI) 投资的回报率提出了质疑。尽管各大企业和投资者正斥资数十亿美元用于人工智能研发，但高盛担忧如此巨额的投入能否真正带来丰厚回报。图源 Pexels目前，我们使用的 LLM 大型语言模型（例如 GPT-4o）训练成本就高达数亿美元，下一代模型的训练成本更是预计将飙升至 10 亿美元。风投巨头红杉资本 (Sequoia Capital) 经过测算后表示，整个 AI 行业每年都需要产生 6000 亿美元（AI在线备注：当前约 4.36 万亿元人民币）

7/14/2024 6:01:45 PM

远洋

暴涨 8050%，富国银行预估 2030 年 AI 产业用电激增至 652 TWh

富国银行（Wells Fargo）预测今年 AI 用电需求为 8 TWh，而到 2030 年将激增到 652 TWh，将增长 8050%。富国银行表示 AI 用电主要用于训练 AI 模型方面，在 2026 年将达到 40 TWh，到 2030 年将达到 402 TWh；此外 AI 推理耗电量将会在 21 世纪 20 年代末出现快速增长。如果单纯看这个数字可能没有直观的感觉，那么这里再附上一组数据：2023 年中国全年用电为 9224.1 TWh，上海市全年用电为 184.9 TWh，深圳市全年用电为 112.8 T

7/9/2024 4:07:50 PM

故渊

AI 泡沫加剧，红杉资本：年产值 6000 亿美元才够支付硬件开支

红杉资本（Sequoia Capital）的分析师大卫・卡恩（David Cahn）发布报告，认为 AI 产业泡沫家居，年产值超过 6000 亿美元，才够支付数据中心、加速 GPU 卡等 AI 基础设施费用。英伟达 2023 年数据中心硬件收入达到 475 亿美元（其中大部分硬件是用于 AI 和 HPC 应用的计算 GPU）。此外 AWS、谷歌、Meta、微软等公司在 2023 年也在 AI 方面投入了大量资金，卡恩认为这些投资很难在短期内回本。卡恩只是粗略估算了 AI 运行成本，首先将英伟达的 run-rate

7/6/2024 11:57:00 AM

故渊

资讯热榜

早鸟票倒计时3天｜第四届全国大模型智能生成大会（LMG 2025）美国女子使用ChatGPT生成号码购彩中奖10万美元：概率事件而非AI预测能力 AI音乐创作成程序员新副业：单曲播放破200万，版权收入数万元 OpenAI 紧急暂停 Sora生成马丁・路德・金形象，AI 视频生成引发热议！推理提速4倍！莫纳什、浙大提出动态拼接，大小模型智能协作 AI 模型“炒股”比拼!DeepSeek 收益超14%，Gemini2.5Pro 惨亏四成全新开源的DeepSeek-OCR，可能是最近最惊喜的模型！ AICoding减慢了软件交付！旧金山创始人警告：AI改变了节奏，压力更大！团队七成时间耗在外环；AI泡沫非坏事；解决问题是关键

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练论文 LLM 代码算法芯片 Stable Diffusion AI for Science 腾讯苹果 Claude Agent 蛋白质开发者生成式神经网络 xAI 机器学习 3D 人形机器人研究 AI视频生成百度大语言模型 Sora 工具 GPU 具身智能 RAG 华为计算字节跳动 AI设计搜索 AGI 大型语言模型视频生成场景深度学习架构 DeepMind 视觉预测 Transformer 伟达编程生成式AI AI模型特斯拉 Copilot