MInference

单卡A100实现百万token推理，速度快10倍，这是微软官方的大模型推理加速

微软的这项研究让开发者可以在单卡机器上以 10 倍的速度处理超过 1M 的输入文本。大型语言模型 (LLM) 已进入长上下文处理时代，其支持的上下文窗口从先前的 128K 猛增到 10M token 级别。然而，由于注意力机制的二次复杂度，模型处理输入提示（即预填充阶段）并开始产生第一个 token 可能需要几分钟时间。导致首个 token 生成的时间过长，从而严重影响了用户体验，这也极大地限制了长上下文 LLM 的广泛应用。举例来说（如图 2a 所示），在单台装有 A100 的机器上为 LLaMA-3-8B 提

7/8/2024 4:18:00 PM

机器之心

资讯热榜

Cursor宣布免费向学生开放一年Pro会员，助力AI编程教育大BUG！非学生用户竟能白嫖谷歌顶级AI全家桶白嫖攻略速看保姆级教程：零代码基础也能微调Qwen3，并本地部署 Figma重磅升级：发布五大新功能，Figma Sites支持一键发布网站 ComfyUI品牌焕新升级，推出原生API节点字节跳动开源深度研究框架DeerFlow Lovart震撼发布：全球首个设计Agent，一键从创意到成品腾讯混元将开源一致性视频生成工具HunyuanCustom

标签云

人工智能 OpenAI AI AIGC ChatGPT AI绘画 DeepSeek 模型机器人数据谷歌大模型 Midjourney 智能用户开源学习微软 GPT Meta 图像 AI创作技术 Gemini 论文马斯克 Stable Diffusion 算法芯片代码生成式蛋白质英伟达腾讯神经网络研究 Anthropic 计算开发者 3D Sora 机器学习 AI设计 AI for Science GPU AI视频苹果场景华为人形机器人百度预测搜索伟达 Claude 深度学习 Transformer xAI 大语言模型字节跳动模态训练具身智能文本驾驶神器推荐 LLaMA Copilot 视觉算力应用安全智能体视频生成干货合集生成亚马逊大型语言模型 API 科技