cpu
微软开源 1.58bit 推理框架:千亿参数模型量化后单 CPU 可跑,速度每秒 5-7 个 token
微软开源 1bit 大模型推理框架!现在 1000 亿参数大模型量化后单 CPU 可跑,速度可达每秒 5-7 个 token。比如在苹果 M2 新品上运行 BitNet b1.58 3B 模型,be like:就是今年爆火论文 The Era of 1-bit LLMs 的官方代码实现,开源不到一周 GitHub 已揽获 7.9k Star。
10/22/2024 6:54:45 PM
汪淼
微软开源 bitnet.cpp 1-bit LLM 推理框架:不靠 GPU 可本地运行千亿参数 AI 模型,能耗最多降低 82.2%
科技媒体 marktechpost 昨日(10 月 18 日)发布博文,报道称微软公司开源了 bitnet.cpp,这是一个能够直接在 CPU 上运行、超高效的 1-bit 大语言模型(LLM)推理框架。用户通过 bitnet.cpp 框架,不需要借助 GPU,也能在本地设备上运行具有 1000 亿参数的大语言模型,实现 6.17 倍的速度提升,且能耗可以降低 82.2%。传统大语言模型通常需要庞大的 GPU 基础设施和大量电力,导致部署和维护成本高昂,而小型企业和个人用户因缺乏先进硬件而难以接触这些技术,而 bitnet.cpp 框架通过降低硬件要求,吸引更多用户以更低的成本使用 AI 技术。
10/19/2024 3:08:57 PM
故渊
手机跑大模型提速 4-5 倍:微软亚研院开源新技术 T-MAC,有 CPU 就行
有 CPU 就能跑大模型,性能甚至超过 NPU / GPU!没错,为了优化模型端侧部署,微软亚洲研究院提出了一种新技术 —— T-MAC。这项技术主打性价比,不仅能让端侧模型跑得更快,而且资源消耗量更少。咋做到的??在 CPU 上高效部署低比特大语言模型一般来说,要想在手机、PC、树莓派等端侧设备上使用大语言模型,我们需要解决存储和计算问题。常见的方法是模型量化,即将模型的参数量化到较低的比特数,比如 4 比特、3 比特甚至更低,这样模型所需的存储空间和计算资源就会减少。不过这也意味着,在执行推理时,需要进行混合精
8/9/2024 12:58:46 PM
汪淼
英伟达黄仁勋解读“CEO 数学”:花小钱,办大事
英伟达首席执行官黄仁勋日前在 2024 台北电脑展前夕提出了一个有趣的概念 ——“CEO 数学”。“买得越多,省得越多,” 黄仁勋在演讲中表示,“这就是 CEO 数学,它并不完全准确,但却很有效。”乍一听让人困惑?黄仁勋随后解释了这个概念的含义。他建议企业同时投资图形处理器 (GPU) 和中央处理器 (CPU)。这两种处理器可以协同工作,将任务完成时间从“100 个单位缩短到 1 个单位”。因此,从长远来看,增加投资反而能节省成本。这种结合使用 CPU 和 GPU 的做法在个人电脑领域已经很普遍。“我们往一台 10
6/3/2024 11:26:54 AM
远洋
4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%
机器之心报道机器之心编辑部PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队,刚刚推出超强 CPU/GPU LLM 高速推理引擎 PowerInfer。项目地址::?在运行 Falcon (ReLU)-40B-FP16 的单个 RTX 4090 (24G) 上,PowerInfer 对比 llama.cpp 实现了 11 倍加速!PowerInfer 和 llama.cpp 都在相同的硬件上运行,并充分利用了 RTX 4090 上的 VRAM。在单个 NVIDIA RTX 4090 GPU
12/20/2023 6:01:00 PM
机器之心
AMD 的下一代 GPU 是 3D 集成的超级芯片:MI300 将 13 块硅片组合为一个芯片
编辑 | 白菜叶AMD 在近日的 AMD Advancing AI 活动中揭开了其下一代 AI 加速器芯片 Instinct MI300 的面纱,这是前所未有的 3D 集成壮举。MI300 将为 El Capitan 超级计算机提供动力,它是一个集计算、内存和通信于一体的夹层蛋糕,有三片硅片高,可以在这些硅平面之间垂直传输多达 17 TB 的数据。它可以使某些机器学习关键计算的速度提高 3.4 倍。该芯片与 Nvidia 的 Grace-Hopper 超级芯片和英特尔的超级计算机加速器 Ponte Vecchio
12/8/2023 3:56:00 PM
ScienceAI
专访AMD芯片架构师Sam Naffziger:Chiplet将如何影响芯片制造
这五年来,处理器领域发生的变化是深刻的,从单片硅芯片变成了小型 chiplet 的组合 —— 这些小型 chiplet 组合起来能像单片大芯片一样运作。
7/17/2023 5:20:00 PM
机器之心
谷歌、Facebook频繁发现CPU内核不可靠,出现无法预测计算错误
最近谷歌和 Facebook 两大公司频繁检测到 CPU 在一些情况下会以无法预测的方式出现计算错误。
6/8/2021 2:30:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉