GPU

Meta 发言人确认将率先使用英伟达旗舰 AI 芯片 B200，预估今年晚些时候收到

感谢Meta 发言人于美东时间 19 日告诉路透社，公司预计今年晚些时候收到英伟达最新旗舰 AI 芯片 ——B200，且为英伟达的首批出货。英伟达的首席财务官 Colette Kress 则告诉金融分析师，“我们认为（产品）将在今年晚些时候上市”，但他也表示，新 GPU 的出货量要到 2025 年才会增加。据悉，社媒巨头 Meta 是英伟达最大的客户之一，该公司曾购买了数十万块上一代加速卡（H100）。Meta 的 CEO 扎克伯格曾在今年 1 月宣布，公司计划在今年年底前储备大约 35 万块 H100。他补充说，

3/20/2024 8:46:29 PM

清源

消息称英伟达有意收购 AI 基础设施虚拟化创企 Run:ai，交易金额最高十亿美元

据外媒 SiliconANGLE 报道，英伟达有意收购 AI 基础设施虚拟化初创企业 Run:ai，交易金额最高可达 10 亿美元（IT之家备注：当前约 72 亿元人民币）。Run:ai 的同名工作负载管理平台近日率先获得英伟达 DGX SuperPOD 认证。其 AI 编排技术可帮助用户轻松运行 AI 和机器学习项目，满足对生成式 AI 和大模型不断增长的要求。Run:ai 由其 CEO 奥姆里・盖勒（Omri Geller）和 CTO 罗宁・达尔（Ronen Dar）于 2018 年创立。两人是在特拉维夫大学电

3/20/2024 12:03:29 PM

溯波（实习）

英伟达最新AI超级算力Blackwell GPU平台即将登陆亚马逊云科技

今天凌晨，英伟达在 GTC 大会上推出了最新一代 GPU 架构 Blackwell 及整套系统。在 Keynote 上，黄仁勋表示，已有多家科技公司和传统企业正在引入新一代产品。在发布活动后，亚马逊云科技宣布将提供基于英伟达 Grace Blackwell GPU 的 Amazon EC2 实例和英伟达 DGX Cloud，以提高在数万亿参数 LLM 上构建和运行推理的性能。亚马逊云科技表示，英伟达的超强算力芯片系统与亚马逊云科技强大的 Elastic Fabric Adapte (EFA) 网络连接能力、高级虚

3/19/2024 3:39:00 PM

新闻助手

消息称英伟达 Blackwell“B100”GPU 将配 192GB HBM3e 显存，B200 配 288GB 显存

感谢英伟达将在明日举行 GTC 2024 主题演讲，黄仁勋预计将宣布名为 Blackwell 的下一代 GPU 架构。据 XpeaGPU 爆料称，明天推出的 B100 GPU 将采用两个基于台积电 CoWoS-L 封装技术的芯片。CoWoS（晶圆基片芯片）是一项先进的 2.5D 封装技术，涉及将芯片堆叠在一起，提高处理能力，同时节省空间并降低功耗。XpeaGPU 透露，B100 GPU 的两个计算芯片将连接到 8 个 8-Hi HBM3e 显存堆栈，总容量为 192GB。值得注意的是，AMD 已经提供了 192GB

3/18/2024 8:32:17 AM

汪淼

Meta 新建两座数据中心集群：内含超 4.9 万块英伟达 H100 GPU，专门训练 Llama3

感谢Meta 公司当地时间 12 日通过官方新闻稿公布了两座新的数据中心集群，该公司正希望通过英伟达的 GPU，在以 AI 为重点的开发中脱颖而出。据悉，这两座数据中心的唯一目的，是在消费者特定应用领域（IT之家注：包含声音或图像识别）中进行 AI 研究和大语言模型的开发，每个集群都包含了 24576 块英伟达 H100 AI GPU，将用于自家大语言模型 Llama 3 的训练。两座新建的数据中心集群都具有 400Gbps 互联功能，其中一个集群采用了 Meta 基于 Arista 7800 自主开发的 Fabr

3/13/2024 5:51:30 PM

清源

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Karpathy：中肯的，一针见血的。如何在不到一年的时间里创办一家公司、筹集资金、购买芯片，并搭建出追赶 Gemini pro/GPT 3.5 的 LLM？很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇，但真正走完「从零开始」这一流程的人很少。我们普遍认为，储备技术人才是前提，掌握核心算法是关键，但实际上，工程实践中冒出来的挑战，也实在令人头疼。一年前，乘着大模型的热潮，Yi Tay 离开了工作 3 年多的谷歌，参与创办了一家名为 Reka 的公司并担任首席科学家，主攻大型语言模型。在谷歌时，Yi T

3/7/2024 3:14:00 PM

机器之心

向英伟达发起挑战的Groq是什么来头？简单科普新型AI芯片LPU

这是一篇关于 LPU 的简单科普。在如今的人工智能领域，「GPU is All You Need」已经逐渐成为共识。没有充足的 GPU，连 OpenAI 都不能轻易升级 ChatGPT。不过最近，GPU 的地位也在经受挑战：一家名为 Groq 的初创公司开发出了一种新的 AI 处理器 ——LPU（Language Processing Unit），其推理速度相较于英伟达 GPU 提高了 10 倍，成本却降低到十分之一。在一项展示中，LPU 以每秒超过 100 个词组的惊人速度执行了开源的大型语言模型 —— 拥有 7

3/6/2024 2:33:00 PM

机器之心

性能提升、成本降低，这是分布式强化学习算法最新研究进展

深度强化学习（Deep Reinforcement Learning，DRL）是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效（data inefficiency）问题，受到分布式机器学习技术的启发，分布式深度强化学习 (distributed deep reinforcement learning，DDRL) 已提出并成功应用于计算机视觉和自然语言处理领域。有观点认为，分布式强化学习是深度强化学习走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。分布式强化学习是一个综合的研究子领域，需

2/15/2024 5:27:00 PM

机器之心

英伟达展示生成式AI驱动NPC，40SUPER系列显卡上线

引领 AI PC 的革新体验。

1/9/2024 10:33:00 PM

机器之心

Llama2推理RTX3090胜过4090，延迟吞吐量占优，但被A800远远甩开

这是为数不多深入比较使用消费级 GPU（RTX 3090、4090）和服务器显卡（A800）进行大模型预训练、微调和推理的论文。大型语言模型 (LLM) 在学界和业界都取得了巨大的进展。但训练和部署 LLM 非常昂贵，需要大量的计算资源和内存，因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的开源框架和方法。然而，不同硬件和软件堆栈的运行时性能可能存在很大差异，这使得选择最佳配置变得困难。最近，一篇题为《Dissecting the Runtime Performance of the Training,

12/27/2023 3:04:00 PM

机器之心

4090成A100平替？上交大推出推理引擎PowerInfer，token生成速率只比A100低18%

机器之心报道机器之心编辑部PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队，刚刚推出超强 CPU/GPU LLM 高速推理引擎 PowerInfer。项目地址：：？在运行 Falcon (ReLU)-40B-FP16 的单个 RTX 4090 (24G) 上，PowerInfer 对比 llama.cpp 实现了 11 倍加速！PowerInfer 和 llama.cpp 都在相同的硬件上运行，并充分利用了 RTX 4090 上的 VRAM。在单个 NVIDIA RTX 4090 GPU

12/20/2023 6:01:00 PM

机器之心

你的GPU能跑Llama 2等大模型吗？用这个开源项目上手测一测

你的 GPU 内存够用吗？这有一个项目，可以提前帮你查看。在算力为王的时代，你的 GPU 可以顺畅的运行大模型（LLM）吗？对于这一问题，很多人都难以给出确切的回答，不知该如何计算 GPU 内存。因为查看 GPU 可以处理哪些 LLM 并不像查看模型大小那么容易，在推理期间（KV 缓存）模型会占用大量内存，例如，llama-2-7b 的序列长度为 1000，需要 1GB 的额外内存。不仅如此，模型在训练期间，KV 缓存、激活和量化都会占用大量内存。我们不禁要问，能不能提前了解上述内存的占用情况。近几日，GitHub

10/23/2023 4:06:00 PM

机器之心

比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了

一年时间，斯坦福大学提出的新型 Attention 算法 ——FlashAttention 完成了进化。这次在算法、并行化和工作分区等方面都有了显著改进，对大模型的适用性也更强了。

7/18/2023 2:55:00 PM

机器之心

思考一下，联邦学习可以训练大语言模型吗？

满足在垂直领域中的应用需求，能用联邦学习训练LLM吗？

7/10/2023 2:34:00 PM

机器之心

DeepSpeed ZeRO++：降低4倍网络通信，显著提高大模型及类ChatGPT模型训练效率

。ZeRO++ 相比 ZeRO 将总通信量减少了 4 倍，而不会影响模型质量。

6/24/2023 12:51:00 PM

机器之心

参会抽RTX 4090，GTC23 China AI Day定档3月22日，嘉宾阵容公布

面向全球 AI 开发者的 GTC 2023 将于3月20 – 23日在线上举办，这场被 NVIDIA 创始人兼首席执行官黄仁勋描述为「迄今为止最重要的一次 GTC」，将带来650多场演讲、专家座谈会和特别活动，几乎涵盖了计算领域的所有热门内容，预计将有超过25万人报名参加。本届 GTC 设有专门为中国 AI 从业者举办的特别活动 — China AI Day。活动将于3月22日下午1点开始，邀您一同探讨互联网、数字孪生、元宇宙领域的前沿的 AI 应用。来自阿里巴巴、百度、快手、腾讯、网易、字节跳动等领先 AI 智

3/10/2023 2:22:00 PM

机器之心