PowerInfer

手机流畅运行 470 亿大模型：上交大发布 LLM 手机推理框架 PowerInfer-2，提速 29 倍

苹果一出手，在手机等移动设备上部署大模型不可避免地成为行业关注焦点。然而，目前在移动设备上运行的模型相对较小（苹果的是 3B，谷歌的是 2B），并且消耗大量内存，这在很大程度上限制了其应用场景。即使是苹果，目前也需要与 OpenAI 合作，通过将云端 GPT-4o 大模型嵌入到操作系统中来提供能力更强的服务。这样一来，苹果的混合方案引起了非常多关于数据隐私的讨论和争议，甚至马斯克都下场讨论。如果苹果在操作系统层面集成 OpenAI，那么苹果设备将被禁止在我的公司使用。这是不可接受的安全违规行为。既然终端侧本地部署大

6/12/2024 12:06:00 PM

汪淼

4090成A100平替？token生成速度只比A100低18%，上交大推理引擎火了

PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队最新推出了超强 CPU/GPU LLM 高速推理引擎 PowerInfer。 PowerInfer 和 llama.cpp 都在相同的硬件上运行，并充分利用了 RTX 4090 上的 VRAM。这个推理引擎速度有多快？在单个 NVIDIA RTX 4090 GPU 上运行 LLM ，PowerInfer 的平均 token 生成速率为 13.20 tokens/s，峰值为

12/21/2023 2:55:00 PM

机器之心

4090成A100平替？上交大推出推理引擎PowerInfer，token生成速率只比A100低18%

机器之心报道机器之心编辑部PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队，刚刚推出超强 CPU/GPU LLM 高速推理引擎 PowerInfer。项目地址：：？在运行 Falcon (ReLU)-40B-FP16 的单个 RTX 4090 (24G) 上，PowerInfer 对比 llama.cpp 实现了 11 倍加速！PowerInfer 和 llama.cpp 都在相同的硬件上运行，并充分利用了 RTX 4090 上的 VRAM。在单个 NVIDIA RTX 4090 GPU

12/20/2023 6:01:00 PM

机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评深度拆解！这可能是全网最详细的AI视频创作教程后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词）

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 马斯克英伟达 Anthropic 图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型 Sora 研究百度生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind AI模型特斯拉场景深度学习亚马逊架构 Transformer MCP Copilot 编程视觉