AI在线 AI在线

GPU

扎克伯格表示,2025年底Meta将拥有130万个用于AI的GPU

扎克伯格表示,2025年底Meta将拥有130万个用于AI的GPU

Meta 首席执行官马克・扎克伯格在最近的一篇 Facebook 帖子中宣布,公司计划在2025年大幅提升资本支出,旨在在激烈的人工智能竞争中保持领先地位。 扎克伯格表示,Meta 预计在2025年的资本支出将达到600亿到800亿美元,主要用于数据中心建设和扩充 AI 开发团队。 这一预算范围几乎是 Meta 去年350亿到400亿美元支出的两倍。
1/25/2025 10:26:00 AM AI在线
英国政府计划采购 10 万块 GPU,将公共部门 AI 算力提升 20 倍

英国政府计划采购 10 万块 GPU,将公共部门 AI 算力提升 20 倍

英国首相斯塔默承诺,到 2030 年英国政府将采购多达 10 万块 GPU,这意味着英国主权 AI 算力将增加 20 倍,主要用于学术界和公共服务领域的 AI 应用。
1/13/2025 7:54:59 PM 远洋
为什么AI大模型训练离不开GPU?

为什么AI大模型训练离不开GPU?

大家好呀,我是飞鱼。 一般说到显卡,大多人的第一反应是,这不是给打游戏的用的吗? 其实显卡的GPU还可以作为AI芯片使用的。
1/9/2025 8:01:10 AM 日常加油站
Dynamic GPU Fractions(动态 GPU 分配),知多少?

Dynamic GPU Fractions(动态 GPU 分配),知多少?

随着人工智能和高性能计算需求的爆炸式增长,图形处理器(GPU)已成为支撑复杂计算任务的关键基础设施。 然而,传统的 GPU 资源分配方式通常采用静态分配模式,即在任务启动时预先分配固定的 GPU 资源。 这种静态分配方式往往导致资源利用率低下,尤其是在工作负载波动较大或资源需求不确定的场景中,造成宝贵的计算资源闲置浪费。
1/8/2025 8:49:50 AM 架构驿站
深度学习最佳 GPU,知多少?

深度学习最佳 GPU,知多少?

众所周知,在深度学习领域,硬件选择的重要性不言而喻。 随着机器学习模型复杂性的不断提升,对高效计算的需求也在指数级增长。 图形处理单元(GPU,Graphics Processing Unit)凭借其强大的并行计算能力,成为应对深度学习挑战的理想硬件解决方案。
1/6/2025 5:00:00 AM 架构驿站
英伟达年终核弹!全新B300为o1推理大模型打造,RTX5090也曝光了

英伟达年终核弹!全新B300为o1推理大模型打造,RTX5090也曝光了

英伟达老黄,成了今年的圣诞老黄。 AI芯片大礼包刚刚曝光:GPU新核弹B300,以及附带CPU的超级芯片GB300。 高算力,在产品层面上相比B200在FLOPS上提高50%大显存,从192GB提升到288GB,也是提高了50%。
12/26/2024 11:45:48 AM
全球最强GPU订单曝光,TOP 1微软一年买爆近50万块!xAI晒首批GB200提前过年

全球最强GPU订单曝光,TOP 1微软一年买爆近50万块!xAI晒首批GB200提前过年

谁是今年英伟达GPU的最大买家? 就在刚刚,答案曝光——TOP 1竟是微软。 今天,这张对比图在网上被转疯了。
12/19/2024 11:32:59 AM 新智元
GPU 资源调度:k8s-device-plugin 知多少 ?

GPU 资源调度:k8s-device-plugin 知多少 ?

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 基于 k8s-device-plugin 机制所实现的 GPU . 资源动态调度。 近几年,随着大数据和人工智能技术的迅猛发展,AI 应用场景日益丰富,成为推动产业升级的重要驱动力。
12/17/2024 4:20:40 PM Luga Lee
一文读懂 GPU 资源动态调度

一文读懂 GPU 资源动态调度

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的 GPU 资源动态调度。 众所周知,随着人工智能、深度学习以及高性能计算(HPC)的快速发展,GPU (Graphics Processing . Unit)已经成为现代计算体系中的核心计算资源之一。
12/16/2024 7:41:35 AM 架构驿站
如何为深度学习选择优秀 GPU ?

如何为深度学习选择优秀 GPU ?

Hello folks,我是 Luga,今天我们继续来聊一下人工智能生态相关技术 - 用于加速构建 AI 核心算力的 GPU 硬件技术。 众所周知,对于绝大多数的深度学习模型的训练,尤其是参数规模较为庞大的模型,其往往是整个开发流程中最耗时、资源消耗最大的环节。 在传统的 CPU .
11/25/2024 4:15:14 PM 架构驿站
英特尔演示资料显示未来将推 AI 芯片 Jaguar Shores

英特尔演示资料显示未来将推 AI 芯片 Jaguar Shores

"Jaguar Shores" 很可能是英特尔计划 2025 年推出的 AI GPU 芯片 "Falcon Shores" 的后继产品。
11/20/2024 5:14:45 PM 溯波(实习)
钻石冷却的GPU即将问世:温度能降20度,超频空间增加25%

钻石冷却的GPU即将问世:温度能降20度,超频空间增加25%

现阶段这一方案的前景如何? 我们尚不得而知。 未来 GPU 的发展方向,居然和钻石有关系?
11/18/2024 1:27:00 PM 机器之心
探秘全球最大 AI 集群 xAI Colossus:122 天建成,10 万张英伟达 H100 构筑马斯克 AI 愿景

探秘全球最大 AI 集群 xAI Colossus:122 天建成,10 万张英伟达 H100 构筑马斯克 AI 愿景

科技媒体 servethehome 昨日(10 月 28 日)发布博文,应 xAI 公司邀请,参观了 Colossus 全球最大 AI 训练集群。 AI在线曾于今年 9 月报道,xAI 在 Supermicro 的帮助下,在短短 122 天时间内搭建 10 万张英伟达 H100,而该公司计划未来将再翻倍增加 10 万张 GPU,其中 5 万张为更先进的 H200。 xAI Colossus 配备了英伟达 HGX H100 服务器,每台服务器内含 8 张 H100 GPU,所有服务器都在 Supermicro 的 4U 水冷系统中运行,确保高效散热。
10/29/2024 4:50:52 PM 故渊
微软开源 bitnet.cpp 1-bit LLM 推理框架:不靠 GPU 可本地运行千亿参数 AI 模型,能耗最多降低 82.2%

微软开源 bitnet.cpp 1-bit LLM 推理框架:不靠 GPU 可本地运行千亿参数 AI 模型,能耗最多降低 82.2%

科技媒体 marktechpost 昨日(10 月 18 日)发布博文,报道称微软公司开源了 bitnet.cpp,这是一个能够直接在 CPU 上运行、超高效的 1-bit 大语言模型(LLM)推理框架。用户通过 bitnet.cpp 框架,不需要借助 GPU,也能在本地设备上运行具有 1000 亿参数的大语言模型,实现 6.17 倍的速度提升,且能耗可以降低 82.2%。传统大语言模型通常需要庞大的 GPU 基础设施和大量电力,导致部署和维护成本高昂,而小型企业和个人用户因缺乏先进硬件而难以接触这些技术,而 bitnet.cpp 框架通过降低硬件要求,吸引更多用户以更低的成本使用 AI 技术。
10/19/2024 3:08:57 PM 故渊
中国算力大会,联想重磅发布两款明星算力新品

中国算力大会,联想重磅发布两款明星算力新品

9月27日,为期3天的2024中国算力大会正式拉开帷幕。在大会异构智算产业生态联盟技术论坛上,联想集团正式发布新一代AI服务器联想问天WA7880a G3和联想AIPod应用部署解决方案两款重磅产品和解决方案。联想AI基础设施“一横五纵”的战略版图进一步丰富和完善。联想问天WA7880a G3是针对AI大模型训练推出的新一代AI服务器,具备多元算力、灵活配置和节能高效三大特点。它也是国内首款支持OAM 2.0模组的服务器,可兼容国内主流GPU厂商的OAM GPU;在配置选择上支持CPU和GPU之间单上行和双上行拓扑
9/27/2024 4:56:00 PM 新闻助手
AI 江湖“饭局”:马斯克、埃里森晚宴上向黄仁勋求购英伟达 GPU

AI 江湖“饭局”:马斯克、埃里森晚宴上向黄仁勋求购英伟达 GPU

甲骨文创始人拉里・埃里森在公司最新财报电话会议上透露了一段轶事,他表示,自己曾与特斯拉 CEO 埃隆・马斯克一起,亲自向英伟达 CEO 黄仁勋求购最新的 AI GPU。在位于帕洛阿尔托的 Nobu 餐厅,埃里森和马斯克向黄仁勋恳求向他们供应英伟达的最新 GPU,“我们向他乞求,请卖给我们,不,多卖给我们,越多越好,我们都需要,拜托了。”埃里森回忆道,“最后事情进展顺利,起作用了。”这次晚餐显然非常成功,埃里森和甲骨文得到了他们想要的 GPU。该公司最近宣布将打造一个名为 Zettascale AI 的超算集群,由
9/14/2024 9:04:44 PM 远洋
马斯克 xAI 上线全球最大 AI 训练集群:122 天搭建 10 万张英伟达 H100,未来几月将翻倍至 20 万张

马斯克 xAI 上线全球最大 AI 训练集群:122 天搭建 10 万张英伟达 H100,未来几月将翻倍至 20 万张

埃隆・马斯克(Elon Musk)昨日(9 月 3 日)在 X 平台发布推文,宣布 xAI 打造的超级 AI 训练集群 Colossus 已经正式上线。马斯克在推文中表示,超级 AI 训练集群 Colossus 搭建用时 122 天,共有 10 万张英伟达 H100 GPU 加速卡,而在未来几个月将再翻倍增加 10 万张 GPU,其中 5 万张为更先进的 H200。英伟达数据中心官方账号随后转发马斯克该条推文,表示 Colossus 是全球最大规模的超级 AI 训练集群。AI在线附上相关对比,谷歌目前使用了 9 万
9/4/2024 4:03:01 PM 故渊
Meta 构建分布式 RoCEv2 网络:探索串联数万片 GPU,训练千亿参数级 AI 模型

Meta 构建分布式 RoCEv2 网络:探索串联数万片 GPU,训练千亿参数级 AI 模型

Meta 公司于 8 月 5 日发布博文,表示为了满足大规模分布式 AI 训练对网络的需求,构建了基于 RoCEv2 协议的大规模 AI 网络。RoCEv2 的全称是 RDMA Over Converged Ethernet version 2,是一种节点间通信传输方式,用于大部分人工智能容量。Meta 公司已成功扩展了 RoCE 网络,从原型发展到部署了众多集群,每个集群可容纳数千个 GPU。这些 RoCE 集群支持广泛的生产型分布式 GPU 训练工作,包括排名、内容推荐、内容理解、自然语言处理和 GenAI 模
8/7/2024 7:35:32 AM 故渊