cpu
微软开源 1.58bit 推理框架:千亿参数模型量化后单 CPU 可跑,速度每秒 5-7 个 token
微软开源 1bit 大模型推理框架!现在 1000 亿参数大模型量化后单 CPU 可跑,速度可达每秒 5-7 个 token。比如在苹果 M2 新品上运行 BitNet b1.58 3B 模型,be like:就是今年爆火论文 The Era of 1-bit LLMs 的官方代码实现,开源不到一周 GitHub 已揽获 7.9k Star。
10/22/2024 6:54:45 PM
汪淼
微软开源 bitnet.cpp 1-bit LLM 推理框架:不靠 GPU 可本地运行千亿参数 AI 模型,能耗最多降低 82.2%
科技媒体 marktechpost 昨日(10 月 18 日)发布博文,报道称微软公司开源了 bitnet.cpp,这是一个能够直接在 CPU 上运行、超高效的 1-bit 大语言模型(LLM)推理框架。用户通过 bitnet.cpp 框架,不需要借助 GPU,也能在本地设备上运行具有 1000 亿参数的大语言模型,实现 6.17 倍的速度提升,且能耗可以降低 82.2%。传统大语言模型通常需要庞大的 GPU 基础设施和大量电力,导致部署和维护成本高昂,而小型企业和个人用户因缺乏先进硬件而难以接触这些技术,而 bitnet.cpp 框架通过降低硬件要求,吸引更多用户以更低的成本使用 AI 技术。
10/19/2024 3:08:57 PM
故渊
手机跑大模型提速 4-5 倍:微软亚研院开源新技术 T-MAC,有 CPU 就行
有 CPU 就能跑大模型,性能甚至超过 NPU / GPU!没错,为了优化模型端侧部署,微软亚洲研究院提出了一种新技术 —— T-MAC。这项技术主打性价比,不仅能让端侧模型跑得更快,而且资源消耗量更少。咋做到的??在 CPU 上高效部署低比特大语言模型一般来说,要想在手机、PC、树莓派等端侧设备上使用大语言模型,我们需要解决存储和计算问题。常见的方法是模型量化,即将模型的参数量化到较低的比特数,比如 4 比特、3 比特甚至更低,这样模型所需的存储空间和计算资源就会减少。不过这也意味着,在执行推理时,需要进行混合精
8/9/2024 12:58:46 PM
汪淼
英伟达黄仁勋解读“CEO 数学”:花小钱,办大事
英伟达首席执行官黄仁勋日前在 2024 台北电脑展前夕提出了一个有趣的概念 ——“CEO 数学”。“买得越多,省得越多,” 黄仁勋在演讲中表示,“这就是 CEO 数学,它并不完全准确,但却很有效。”乍一听让人困惑?黄仁勋随后解释了这个概念的含义。他建议企业同时投资图形处理器 (GPU) 和中央处理器 (CPU)。这两种处理器可以协同工作,将任务完成时间从“100 个单位缩短到 1 个单位”。因此,从长远来看,增加投资反而能节省成本。这种结合使用 CPU 和 GPU 的做法在个人电脑领域已经很普遍。“我们往一台 10
6/3/2024 11:26:54 AM
远洋
4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%
机器之心报道机器之心编辑部PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队,刚刚推出超强 CPU/GPU LLM 高速推理引擎 PowerInfer。项目地址::?在运行 Falcon (ReLU)-40B-FP16 的单个 RTX 4090 (24G) 上,PowerInfer 对比 llama.cpp 实现了 11 倍加速!PowerInfer 和 llama.cpp 都在相同的硬件上运行,并充分利用了 RTX 4090 上的 VRAM。在单个 NVIDIA RTX 4090 GPU
12/20/2023 6:01:00 PM
机器之心
AMD 的下一代 GPU 是 3D 集成的超级芯片:MI300 将 13 块硅片组合为一个芯片
编辑 | 白菜叶AMD 在近日的 AMD Advancing AI 活动中揭开了其下一代 AI 加速器芯片 Instinct MI300 的面纱,这是前所未有的 3D 集成壮举。MI300 将为 El Capitan 超级计算机提供动力,它是一个集计算、内存和通信于一体的夹层蛋糕,有三片硅片高,可以在这些硅平面之间垂直传输多达 17 TB 的数据。它可以使某些机器学习关键计算的速度提高 3.4 倍。该芯片与 Nvidia 的 Grace-Hopper 超级芯片和英特尔的超级计算机加速器 Ponte Vecchio
12/8/2023 3:56:00 PM
ScienceAI
专访AMD芯片架构师Sam Naffziger:Chiplet将如何影响芯片制造
这五年来,处理器领域发生的变化是深刻的,从单片硅芯片变成了小型 chiplet 的组合 —— 这些小型 chiplet 组合起来能像单片大芯片一样运作。
7/17/2023 5:20:00 PM
机器之心
谷歌、Facebook频繁发现CPU内核不可靠,出现无法预测计算错误
最近谷歌和 Facebook 两大公司频繁检测到 CPU 在一些情况下会以无法预测的方式出现计算错误。
6/8/2021 2:30:00 PM
机器之心
- 1
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊