AI在线 AI在线

手机流畅处理128K长文本,vivo端侧新算法突破内存限制 | ACL 2025

在端侧设备上处理长文本常常面临计算和内存瓶颈。 vivo AI研究院推出的EdgeInfinite算法专为端侧设备设计,让设备处理超长文本时更加高效流畅,该方法能够在不到10GB GPU内存的设备上处理长达128K tokens的输入。 该研究成果已中稿ACL 2025。

在端侧设备上处理长文本常常面临计算和内存瓶颈。

vivo AI研究院推出的EdgeInfinite算法专为端侧设备设计,让设备处理超长文本时更加高效流畅,该方法能够在不到10GB GPU内存的设备上处理长达128K tokens的输入。

该研究成果已中稿ACL 2025。

图片

以下是更多详细内容介绍。

EdgeInfinite:解决端侧设备长文本处理的高效算法

端侧LLM在实际应用中会遇到很多长文本输入的场景(例如通话摘要和个人文档总结),但由于端侧设备的资源限制,现有的LLM在部署到端侧后都无法处理很长的上下文。

这是由于现在LLM都是基于Transformer架构,其计算耗时和内存占用会随着输入长度增加而显著增长,尤其当需要将Transformer类模型部署到端侧设备上时,面临的挑战会愈发突出。

为了解决这类问题,vivo AI研究院提出了一种用于端侧设备的长文本算法——EdgeInfinite,该算法通过一个可训练的门控记忆模块将记忆压缩算法集成到了Transformer架构中。

本方法与原生的Transformer架构完全兼容,在训练时只需要微调一小部分参数,就可以在长文本任务上取得不错的效果,同时保持了相对高效的推理性能,非常适合在端侧设备上高效地处理长文本任务。

EdgeInfinite架构解析

图片

EdgeInfinite的架构如上图所示,主要包括三个核心部分:结合ROPE的分块注意力模块记忆压缩与解压缩模块和自适应的门控记忆模块

1. 结合ROPE的分块注意力

EdgeInfinite会把输入的文本序列,按照一定长度切成小的片段。对每个片段分别计算 Q、K、V 值。同时,对每个片段会加入位置编码ROPE,让模型更好地理解小段内每个token之间的相对位置关系,这样在计算注意力的时候就更准确。

2. 记忆压缩与解压缩

EdgeInfinite引入了记忆的压缩与解压缩模块,将过去KV状态分块并存储为固定长度的记忆块,并在计算attention时候解压缩出来进行计算。由于记忆中编码了之前片段的KV对的关联,解压缩使我们能够计算当前Q状态和过去的KV状态之间的注意力。这个过程使得块状计算能够近似原始长序列的注意力计算。

3. 自适应的门控记忆模块

EdgeInfinite通过自适应的门控记忆模块将基于记忆的注意力与基于局部片段的注意力相结合,从而增强模型处理长距离依赖关系的能力。在训练时,EdgeInfinite只需要对记忆门控模块进行微调。

推理策略

图片

图片

EdgeInfinite在推理时采用了两个策略:

1.保留特定token的kv cache:在推理过程中的固定保留了两种特殊token的kv cache,即sink token(序列最开始的一些token)和window token(序列末尾的一些token),这些token对于保留语义和位置信息非常重要,需要将它们保留为未压缩状态来确保高质量的推理输出。

2.长短文本任务路由机制:EdgeInfinite可以灵活的和已有的基础模型相结合,来提升基础模型的长文本能力,同时也不影响基础模型的短文本能力,这是通过推理时动态的长短文本任务路由来实现的。

实验结果

研究人员使用vivo自研的 BlueLM-3B 作为基础模型,在 LongBench 这个包含多种长文本任务的数据集上测试 EdgeInfinite 的性能,同时将EdgeInfinite与三种KV Cache优化方法(SnapKV、PyramidKV和StreamingLLM)以及保留完整KV Cache的原始模型(FullKV)进行比较。

图片

实验结果(如上图)显示,EdgeInfinite在多文档问答和少样本学习这些任务上,相比其他的方法有明显优势;在其中部分任务上还会优于原始的 FullKV 模型,整体模型效果还是很有竞争力的。

图片

研究人员还做了消融实验来验证推理时保留特定token是很重要的。实验结果(如上图)表明,如果去掉sink token或者window token,推理效果会受到很大影响。

图片

和原始的BlueLM-3B模型相比,EdgeInfinite在处理长文本输入时,首词出词时间更短,占用的内存也更少;即使输入文本长度增加,EdgeInfinite 的内存占用也保持在相对稳定的水平。

未来,EdgeInfinite有望在更多资源受限的设备上广泛应用,提升各类长文本处理任务的效率。比如在智能语音助手、移动办公文档处理等场景中,让用户获得更流畅的体验。

论文链接:https://arxiv.org/pdf/2503.22196

相关资讯

不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限

仅通过强化学习,就能超越DeepSeek! 上海AI Lab提出了基于结果奖励的强化学习新范式——从Qwen2.5-32B-Base模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如DeepSeek-R1的情况下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。 团队发现,当前大模型数学推理任务面临”三重门”困局:稀疏奖励困境:最终答案对错的二元反馈,使复杂推理的优化变得困难局部正确陷阱:长思维链中部分正确步骤反而可能误导模型学习规模依赖魔咒:传统蒸馏方法迫使研究者陷入”参数规模军备竞赛”因此,研究团队重新审视了当前基于结果奖励的强化学习算法,经过严格的理论推导与证明,重新设计了一个新的结果奖励强化学习算法,并在这个过程中得出了三点重要结论:对于正样本:在二元反馈环境下,通过最佳轨迹采样(BoN)的行为克隆即可学习最优策略对于负样本:需要使用奖励重塑来维护策略优化目标的一致性对于长序列:不同的序列部分对结果的贡献不同,因此需要更细粒度的奖励分配函数,这个函数可以通过结果奖励习得通俗来说,就是通过对正确样本模仿学习,错误样本偏好学习,关键步骤重点学习,无需依赖超大规模的模型(例如DeepSeek-R1)进行蒸馏,仅通过强化学习即可达到惊人的效果。
2/17/2025 9:33:00 AM
量子位

免手术AI读心术新突破!Meta脑机接口研究惊呆网友:能边睡边玩手机发帖了??

新年伊始,Meta脑机接口研究传来新进展——语言模型加持下,无需动脑部手术,脑机接口实现了当前非侵入式方式(MEG)最准确的结果。 简单来说,仅利用AI模型Brain2Qwerty,他们实现了对脑电图(EEG)或脑磁图(MEG)电信号的高度解析。 具体效果如何呢?
2/17/2025 10:08:00 AM
量子位

老友记搬沙发难题终结,60年数学谜题破解!119页论文惊人证明:有最优解

臭名昭著的「搬沙发」难题,已经困扰了数学家们60年。 《老友记》经典的一幕,就是Ross找人帮忙搬新沙发时,无论如何也无法使沙发顺利通过拐角。 Ross大喊「Pivot!
2/18/2025 9:20:00 AM
新智元
  • 1