GPU

GPU 内存交换技术，知多少？

Hello folks，我是 Luga，今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的 GPU 内存交换机技术。众所周知，LLMs 虽然在诸多任务中表现出色，但其庞大的模型体积和复杂的计算需求，使得高效利用 GPU 资源成为一大难题。尤其是在高并发场景下，如何快速加载和卸载模型，避免 GPU 闲置，成为影响推理性能和成本的关键因素...一、GPU 设备资源调度的当前现状与困境随着AI 产业的持续落地，越来越多的公司开始将大型语言模型（LLMs）部署到生产环境，并确保能够大规模服务于用户。

2/20/2025 2:52:02 PM

架构驿站

DeepSeek+CodeWave实战，打通组织内落地DeepSeek的最后一公里

内容概要1、采购智能体应用效果演示2、DeepSeek大模型特征介绍3、DeepSeek和CodeWave如何产生化学反应4、0基础开发更智能采购管理系统智能体应用效果演示：开源 DeepSeek LLM 7B 和 67B 的 Base 和 Chat 模型2024年2月：开源 DeepSeek Coder 系列模型2024年2月：开源 DeepSeek Math 模型2024年3月：开源 DeepSeek-VL 系列模型2024年5月：开源 DeepSeek-V2 系列模型2024年7月：开源 DeepSeek-Coder-V2 系列模型2024年12月：开源 DeepSeek-V3 系列模型2025年1月：开源推理模型 DeepSeek-R1DeepSeek-V3和DeepSeek-R1差异图片技术特性差异：V3强调训练效率，能以较低GPU资源实现高性能；R1采用"强化学习优先"策略，先培养推理能力再优化语言流畅度核心能力及应用场景差异：V3通用型语言模型，擅长自然语言生成和多领域任务（如写作、多语言处理）；R1专注于逻辑推理领域，强化数学解题、代码生成等复杂推理能力。部署使用差异：API调用时，V3对应名称`deepseek-chat`，R1为`deepseek-reasoner`DeepSeek和CodeWave化学反应为什么需要整合DS到CodeWave主要有以下原因：打造个性化UI开发独立AI应用或已有应用智能化私域流量运营图片DeepSeek、Coze、CodeWave作用与关系CodeWave：通用应用开发平台，可以集成coze、dify、DeepSeek等开发通用AI应用，运行在私域上Coze、Dify：大语言应用开发平台，工作流编排，智能体应用开发，运行在公域上DeepSeek、豆包：大语言模型，是底层AI能力提供者 0基础教你开发更智能的采购管理系统准备工作注册CodeWave： Key：“采购管理系统”创建项目：图片在项目中引入DeepSeek连接器导入连接器：第一步，集成中心 - 导入连接器图片第二步，资产市场搜索DeepSeek连接器并导入：图片第三步，点击添加，在弹框中填入DeepSeek平台获得的API_Key：图片图片这样就导入完毕了！

2/20/2025 8:45:41 AM

前端杨村长

xAI 新模型 Grok 3 逻辑推理能力获 OpenAI 创始人点赞

埃隆・马斯克的人工智能公司 xAI 于本周一发布了其最新的语言模型 Grok3，标志着该公司在人工智能领域的重要进展。据马斯克介绍，新模型所需的计算能力是其前身的十倍，使用了位于孟菲斯的数据中心，配备了约20万块 GPU。 Grok3系列模型推出了多种变体，其中包括一个精简版，旨在提高速度但牺牲部分准确性。

2/19/2025 10:19:00 AM

AI在线

“地表最强”Grok 3震撼登场，马斯克演示却“小翻车”，网友调侃：加上擎天柱才是AGI！几个月后还将开源！

出品 | 51CTO技术栈（微信号：blog51cto）编辑 | 伊风、言征跳票多次！ Grok 3终于来了！此前，DeepSeek创造的破圈奇迹，把硅谷的大模型公司全部笼罩在阴影之下。

2/18/2025 3:16:25 PM

伊风

马斯克20万块GPU炼出Grok-3，暴击DeepSeek R1数学屠榜！疯狂复仇OpenAI

人类史上首个在20万块GPU上训出的模型终于问世！刚刚，马斯克带队三位xAI成员在线开启直播，官宣Grok-3全家桶——Grok-3（Beta）、Grok-3 mini首个推理模型Grok-3 Reasoning（Beta）、Grok-3 mini Reasoning：击败o3-mini/DeepSeek-R1，解锁推理时计算首个AI智能体「DeepSearch」：联网深入搜索一股OpenAI发布会的味道扑面而来据介绍，三代Grok的训练计算量竟是Grok-2的10倍，那么实际表现又如何？世界最大超算集群Colossus已有20万块GPU：10万块GPU同步训练（第一阶段用时122天搭建）；20万GPU（第二阶段用时92天）在多项基准测试中，Grok-3在数学（AIME 2024）、科学问答（GPQA）、编码（LCB）上刷新SOTA，大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。

2/18/2025 2:59:16 PM

新智元

韩国政府计划采购10000个高性能 GPU，助力 AI 竞争

在全球人工智能（AI）竞争日益激烈的背景下，韩国政府近日宣布了一个重要计划。代理总统崔相穆表示，政府将通过公私合作的方式，尽快采购10000个高性能 GPU，以助力国家 AI 计算中心的相关服务尽早启动。这一举措标志着韩国在 AI 领域的雄心，旨在确保其在全球竞争中的领先地位。

2/17/2025 4:53:00 PM

AI在线

没有数据、没有GPU的情况下怎么训练DeepSeek

春节期间，AI 界热闹非凡，到处都是关于 DeepSeek 的报道。大家都知道，训练好的模型通常需要昂贵的专用 GPU，这对很多想试试微调技术的人来说，真是一道门槛。好消息来了：你完全可以用免费的 Google Colab Notebook 来实现微调。

2/13/2025 9:45:31 AM

MobotStone

不到140块！李飞飞团队超低成本复刻DeepSeek R1推理！16张H100只训练了26分钟，与R1训练方法不同！

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）太魔鬼了！上周李飞飞团队发了篇新论文，再次降低了复刻o1能力的成本。低到什么程度呢？

2/6/2025 6:37:46 PM

伊风

MetaDiff：用扩散模型重塑元学习，攻克小样本学习瓶颈！

一眼概览MetaDiff 提出了一种基于条件扩散模型的创新元学习方法，通过将梯度下降优化建模为去噪过程，有效提升了小样本学习（FSL）的性能，显著减少了内循环优化中的内存负担和梯度消失风险。核心问题小样本学习的主要挑战在于：如何在训练数据有限的情况下快速适应新任务，而不引入过拟合或内存瓶颈。传统基于梯度的元学习方法需要计算内循环路径上的二阶导数，导致内存消耗高和梯度消失问题，从而影响性能。

1/27/2025 12:57:43 AM

萍哥学AI

扎克伯格表示，2025年底Meta将拥有130万个用于AI的GPU

Meta 首席执行官马克・扎克伯格在最近的一篇 Facebook 帖子中宣布，公司计划在2025年大幅提升资本支出，旨在在激烈的人工智能竞争中保持领先地位。扎克伯格表示，Meta 预计在2025年的资本支出将达到600亿到800亿美元，主要用于数据中心建设和扩充 AI 开发团队。这一预算范围几乎是 Meta 去年350亿到400亿美元支出的两倍。

1/25/2025 10:26:00 AM

AI在线

英国政府计划采购 10 万块 GPU，将公共部门 AI 算力提升 20 倍

英国首相斯塔默承诺，到 2030 年英国政府将采购多达 10 万块 GPU，这意味着英国主权 AI 算力将增加 20 倍，主要用于学术界和公共服务领域的 AI 应用。

1/13/2025 7:54:59 PM

远洋

为什么AI大模型训练离不开GPU?

大家好呀，我是飞鱼。一般说到显卡，大多人的第一反应是，这不是给打游戏的用的吗？其实显卡的GPU还可以作为AI芯片使用的。

1/9/2025 8:01:10 AM

日常加油站

Dynamic GPU Fractions（动态 GPU 分配），知多少？

随着人工智能和高性能计算需求的爆炸式增长，图形处理器（GPU）已成为支撑复杂计算任务的关键基础设施。然而，传统的 GPU 资源分配方式通常采用静态分配模式，即在任务启动时预先分配固定的 GPU 资源。这种静态分配方式往往导致资源利用率低下，尤其是在工作负载波动较大或资源需求不确定的场景中，造成宝贵的计算资源闲置浪费。

1/8/2025 8:49:50 AM

架构驿站

深度学习最佳 GPU，知多少？

众所周知，在深度学习领域，硬件选择的重要性不言而喻。随着机器学习模型复杂性的不断提升，对高效计算的需求也在指数级增长。图形处理单元（GPU，Graphics Processing Unit）凭借其强大的并行计算能力，成为应对深度学习挑战的理想硬件解决方案。

1/6/2025 5:00:00 AM

架构驿站

英伟达年终核弹！全新B300为o1推理大模型打造，RTX5090也曝光了

英伟达老黄，成了今年的圣诞老黄。 AI芯片大礼包刚刚曝光：GPU新核弹B300，以及附带CPU的超级芯片GB300。高算力，在产品层面上相比B200在FLOPS上提高50%大显存，从192GB提升到288GB，也是提高了50%。

12/26/2024 11:45:48 AM

全球最强GPU订单曝光，TOP 1微软一年买爆近50万块！xAI晒首批GB200提前过年

谁是今年英伟达GPU的最大买家？就在刚刚，答案曝光——TOP 1竟是微软。今天，这张对比图在网上被转疯了。

12/19/2024 11:32:59 AM

新智元

GPU 资源调度：k8s-device-plugin 知多少？

Hello folks，我是 Luga，今天我们来聊一下人工智能应用场景 - 基于 k8s-device-plugin 机制所实现的 GPU . 资源动态调度。近几年，随着大数据和人工智能技术的迅猛发展，AI 应用场景日益丰富，成为推动产业升级的重要驱动力。

12/17/2024 4:20:40 PM

Luga Lee

一文读懂 GPU 资源动态调度

Hello folks，我是 Luga，今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的 GPU 资源动态调度。众所周知，随着人工智能、深度学习以及高性能计算(HPC)的快速发展，GPU (Graphics Processing . Unit)已经成为现代计算体系中的核心计算资源之一。

12/16/2024 7:41:35 AM

架构驿站

资讯热榜

早鸟票倒计时3天｜第四届全国大模型智能生成大会（LMG 2025）美国女子使用ChatGPT生成号码购彩中奖10万美元：概率事件而非AI预测能力 AI音乐创作成程序员新副业：单曲播放破200万，版权收入数万元 OpenAI 紧急暂停 Sora生成马丁・路德・金形象，AI 视频生成引发热议！推理提速4倍！莫纳什、浙大提出动态拼接，大小模型智能协作 AI 模型“炒股”比拼!DeepSeek 收益超14%，Gemini2.5Pro 惨亏四成全新开源的DeepSeek-OCR，可能是最近最惊喜的模型！ AICoding减慢了软件交付！旧金山创始人警告：AI改变了节奏，压力更大！团队七成时间耗在外环；AI泡沫非坏事；解决问题是关键

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练论文 LLM 代码算法芯片 Stable Diffusion AI for Science 腾讯苹果 Claude Agent 蛋白质开发者生成式神经网络 xAI 机器学习 3D 人形机器人研究 AI视频生成百度大语言模型 Sora 工具 GPU 具身智能 RAG 华为计算字节跳动 AI设计搜索 AGI 大型语言模型视频生成场景深度学习架构 DeepMind 视觉预测 Transformer 伟达编程生成式AI AI模型特斯拉 Copilot

GPU

GPU 内存交换技术，知多少？

DeepSeek+CodeWave实战，打通组织内落地DeepSeek的最后一公里

xAI 新模型 Grok 3 逻辑推理能力获 OpenAI 创始人点赞

“地表最强”Grok 3震撼登场，马斯克演示却“小翻车”，网友调侃：加上擎天柱才是AGI！几个月后还将开源！

马斯克20万块GPU炼出Grok-3，暴击DeepSeek R1数学屠榜！疯狂复仇OpenAI

​韩国政府计划采购10000个高性能 GPU，助力 AI 竞争

没有数据、没有GPU的情况下怎么训练DeepSeek

不到140块！李飞飞团队超低成本复刻DeepSeek R1推理！16张H100只训练了26分钟，与R1训练方法不同！

MetaDiff：用扩散模型重塑元学习，攻克小样本学习瓶颈！

扎克伯格表示，2025年底Meta将拥有130万个用于AI的GPU

英国政府计划采购 10 万块 GPU，将公共部门 AI 算力提升 20 倍

为什么AI大模型训练离不开GPU?

Dynamic GPU Fractions（动态 GPU 分配），知多少？

深度学习最佳 GPU，知多少？

英伟达年终核弹！全新B300为o1推理大模型打造，RTX5090也曝光了

全球最强GPU订单曝光，TOP 1微软一年买爆近50万块！xAI晒首批GB200提前过年

GPU 资源调度：k8s-device-plugin 知多少 ？

一文读懂 GPU 资源动态调度

韩国政府计划采购10000个高性能 GPU，助力 AI 竞争

GPU 资源调度：k8s-device-plugin 知多少？