APB 框架

在长文本上比Flash Attention快10倍！清华等提出APB序列并行推理框架

在 ChatGPT 爆火两年多的时间里，大语言模型的上下文窗口长度基准线被拉升，以此为基础所构建的长 CoT 推理、多 Agent 协作等类型的高级应用也逐渐增多。随之而来的是，长文本推理速度被提出更高要求，而基于现有 Transformer 架构的模型受限于注意力机制的二次方复杂度，难以在较短时延内处理超长文本请求。针对这一痛点，清华大学 NLP 实验室联手中南大学、北京邮电大学以及腾讯微信 AI 实验室取得了突破，共同提出了 APB 框架 —— 其核心是一个整合了稀疏注意力机制的序列并行推理框架，通过整合局部 KV 缓存压缩方式以及精简的跨 GPU 通信机制，解决了长上下文远距离语义依赖问题，在无性能损失的前提下大幅度提升超长文本预填充的效率。

3/12/2025 10:31:00 AM

机器之心

资讯热榜

姚顺雨离职OpenAI，「亿元入职腾讯」传闻引爆AI圈，鹅厂辟谣了狠人研究公开！ChatGPT底层记忆系统终于被逆向了！没有RAG！用户设备信息、使用习惯统统存下来，用户知识记忆是新的研究热点！ OpenAI与微软达成非约束性协议：允许将营利部门转型公益股份公司迎战软件3.0时代：新范式、新挑战、新工程 ChatGPT支持MCP了！一句Prompt即可全自动化腾讯辟谣！OpenAI 前研究员姚顺雨 “百万年薪” 入职传闻不实国家发改委：加大人工智能领域金融和财政支持力度 OpenAI与英伟达联手巨资投资英国数据中心

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源智能 Meta 用户微软 GPT 学习技术 AI新词图像 Gemini 智能体马斯克 AI创作 Anthropic 英伟达论文训练代码算法 LLM Stable Diffusion 芯片腾讯苹果蛋白质 Claude 开发者 AI for Science Agent 生成式神经网络机器学习 3D xAI 研究人形机器人生成 AI视频百度工具计算 Sora GPU 华为大语言模型 RAG 具身智能 AI设计字节跳动搜索大型语言模型场景 AGI 深度学习视频生成预测视觉伟达架构 Transformer 编程神器推荐 DeepMind 亚马逊特斯拉 AI模型