AI在线 AI在线

仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

本文共同一作为葛俊岐 (清华大学本科生),陈子熠 (清华大学本科生),林锦涛 (香港大学博士生),祝金国 (上海 AI Lab 青年研究员)。本文的通讯作者是朱锡洲,他的研究方向是视觉基础模型和多模态基础模型,代表作有 Deformable DETR、DCN v2 等。

随着语言大模型的成功,视觉 - 语言多模态大模型 (Vision-Language Multimodal Models, 简写为 VLMs) 发展迅速,但在长上下文场景下表现却不尽如人意,这一问题严重制约了多模态模型在实际应用中的潜力。

为解决这一问题,清华大学,香港大学和上海 AI Lab 联合提出了一种新的用于多模态大模型的位置编码方法 ——Variable Vision Position Embedding (V2PE) ,取得多模态大模型在长上下文场景下的新突破。

图片

  • 论文地址:https://arxiv.org/abs/2412.09616

  • 项目主页:https://zzdhybthu.github.io/V2PE.github.io/

  • 开源代码:https://github.com/OpenGVLab/V2PE

位置编码是多模态大模型中的关键技术,用于让模型理解输入序列的相对位置关系。它使得 VLMs 能够理解词语在句子中的位置,并识别图像块在原图中的二维位置。然而,现有的多模态模型通常在图像 token 上沿用文本模型的位置编码方式,这并非最优方案。

V2PE 提出了一种为视觉 token 分配可变位置增量的新方法,有效解决了传统位置编码在处理超长上下文任务时的性能瓶颈问题。通过避免位置编码超出模型训练上下文窗口的限制,V2PE 显著提升了模型在 32K 至 1M 长度超长上下文任务中的表现。相比传统位置编码的模型,采用 V2PE 的模型在这些任务中实现了突破性改进,甚至超越了最先进的闭源大模型。

图片

V2PE 工作有以下贡献:

  • 构建了一个用于 VLMs 长上下文训练和评估的混合数据集。研究团队通过这一数据集发现,直接将 LLM 的位置编码机制应用于视觉 token 是次优选择。

  • 提出了可变视觉位置信息编码 (V2PE),一种创新的位置编码策略,通过为视觉 token 分配可变且较小的增量,大幅提升了 VLMs 对长多模态上下文的理解和推理能力。

  • 将 V2PE 方法和扩展训练数据应用于开源视觉模型 InternVL2-2B, 微调后的模型在统一多模态基准测试和长上下文多模态任务中表现优异,成功处理长达 1M token 的序列,展现了卓越的长上下文处理能力。

可变视觉位置编码

突破视觉 - 语言模型在长上下文场景中的新边界

在人工智能领域,视觉 - 语言模型 因其在多模态任务中的出色表现而备受关注。然而,在处理视频、高分辨率图像或长篇图文文档等长上下文场景时,其泛化能力却显著下降,这限制了它们在实际应用中的潜力,并影响了用户体验的进一步提升。

V2PE 旨在解决的核心问题在于:为什么 VLMs 在长上下文场景下表现不佳,以及如何提升它们在长序列多模态理解与推理上的能力?

为了研究 VLMs 为什么在长上下文场景表现不佳,研究团队通过构建大规模的长上下文多模态数据集,系统地评估和分析 VLMs 的能力,在这一过程中,他们意识到位置编码策略在 VLMs 的性能中起着至关重要的作用。

传统的 VLMs 位置编码通常不区分文本 token 和图像 token,并在训练中使用固定的编码规则。然而,文本 token 属于一维数据,位置编码仅需传达先后顺序;图像 token 则为二维数据,位置编码需传递图像块的空间位置信息,还要考虑多分辨率下缩略图与子图像块的对应关系。此外,当模型处理超出训练上下文窗口的长序列时,固定位置编码会超出模型已知范围,导致推理能力受限。

因此,作者提出了 Variable Visual Position Encoding (V2PE),这是一种新颖的位置编码方法,专门针对视觉 - 语言模型(VLMs)中的长上下文场景。V2PE 通过为视觉 token 分配更小的、可变的位置增量,有效地管理长多模态序列。

增强的长上下文多模态数据集

图片

作者引入了两个增强的长上下文多模态数据集:Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR)。旨在提升 VLMs 的长上下文能力并建立评估框架。

  • Long-VQA 数据集扩展了 17 个被广泛采用的数据集,将内容从短序列扩展到包含高达 32K token 的序列。任务涵盖常识推理、事实知识和解释文本和视觉信息。

  • Long-MR 数据集受多模态大海捞针 benchamrk -- MM-NIAH 的启发,通过在交错的文本图像中检测目标图像或段落,评估 VLMs 处理超长上下文的能力。

可变视觉位置编码

位置编码在视觉 - 语言模型中的作用

位置编码是 Transformer 架构中的基本组成部分,它通过为 token 提供位置信息来捕获序列关系。位置编码通常涉及两个步骤:位置索引推导图片和位置嵌入计算图片

  • 位置索引推导:为每个 token图片分配位置索引图片

  • 位置嵌入计算:将这些索引转换为影响注意力机制的位置嵌入。

可变位置索引推导

作者提出了一种针对模态特定的递归函数,为文本和视觉 token 分配不同的位置索引:

图片

其中图片是一个小于 1 的增量,用于减少视觉 token 的位置索引增加速率。在训练过程中,图片可以从一组分数值中动态选择,以适应不同的输入长度和复杂性。

这种方法与传统的长上下文方法相比具有几个优势:

1. V2PE 保留了 VLMs 中的所有视觉 token,保留了视觉内容的丰富性和细节。

2. V2PE 允许 VLMs 通过在训练期间动态选择图片来适应任意间隔的位置索引,避免了位置编码外推引起的不准确。

长上下文能力显著提升

经过一系列的实验和分析,研究团队取得了显著的成果。通过引入 Variable Visual Position Encoding (V2PE) 和增强的长上下文多模态数据集,研究团队得到了以下几个重要的发现:

图片对模型上下文能力的影响

图片

在上下文长度 32k 以内的数据上训练模型,在 64k 以内,多种长度的基准测试上进行测试。实验的结果表明,在测试长度超出训练的上下文长度时,模型效果会显著下降,但选用更小的增量图片可以有效缓解这一现象。

  • 在 1M 上下文长度下的表现提升

图片

作者分别在 32k 和 256k 的训练数据上微调模型,并在长达 1M 的多种上下文长度上进行测试。实验结果表明,V2PE 在长上下文场景下的表现明显优于不加 V2PE 的模型,也优于使用插值方法的模型,甚至能超越先进的闭源大模型。

图片

此外,作者将训练好的 V2PE 模型与其他视觉 - 语言模型在多种基准测试进行了对比,结果表明,V2PE 在长上下文多模态任务上的表现优于其他模型,证明了 V2PE 的有效性。

图片

图片

消融实验中,作者将 V2PE 方法与 token 压缩的方法以及在训练时固定视觉 token 的位置编码增量的方法进行了对比,证明了 V2PE 的优势。

在对注意力图的分析中,作者关注注意力图的尾部,即对应序列末端的问题部分的注意力图。作者发现,随着图片的减小,模型能更好地把注意力集中在问题对应的答案附近,证明了 V2PE 能够有效地提升模型将注意力对齐到输入序列中的关键部分的能力。

图片

V2PE 的提出,为视觉 - 语言模型在长上下文场景下的表现提供了新的思路。通过为视觉 token 分配可变的位置增量,V2PE 有效地解决了位置编码超出模型训练上下文窗口的问题,提升了模型在长上下文场景下的表现。

作者相信,V2PE 的提出将为视觉 - 语言模型的发展带来新的机遇,为模型在长上下文多模态任务中的应用提供更多可能性。

相关资讯

Transformer的无限之路:位置编码视角下的长度外推综述

在自然语言处理(Natural Language Processing,NLP)领域,Transformer 模型因其在序列建模中的卓越性能而受到广泛关注。然而,Transformer 及在其基础之上的大语言模型(Large Language Models,LLMs)都不具备有效长度外推(Length Extrapolation)的能力。这意味着,受限于其训练时预设的上下文长度限制,大模型无法有效处理超过该长度限制的序列。文本续写和语言延展是人类语言的核心能力之一,与之相对的,长度外推是语言模型智能进化的重要方向,
1/15/2024 4:06:00 PM
机器之心

Instacart CEO Fidji Simo Takes Over OpenAI's Application Division

Instacart CEO Fidji Simo will officially join OpenAI on August 18 as the newly created position of **"Chief Officer for Applications."** She will report directly to OpenAI CEO Sam Altman and will be responsible for leading at least one-third of the company's team, focusing on expanding and developing use cases for OpenAI technology.This new position was first announced by Altman during the company's reorganization in May this year.
7/22/2025 9:52:35 AM
AI在线

Creator 面对面 | 北大河图在稀疏大模型训练架构上的几点探索

河图是北京大学数据与智能实验室自研的一款分布式深度学习框架,兼顾创新性和可用性,这也是国内首个由高校自主研发的分布式深度学习系统。底层的算子实现到上层的模型设计完全是由河图团队自主实现。
7/13/2022 6:41:00 PM
SOTA模型

开源!港中文、MIT、复旦提出首个RNA基石模型

本文中 RNA-FM 模型的出现一定程度上缓解了 RNA 带标注数据紧张的现状,为其他研究者提供了访问大批量无标签数据的便捷接口。并且,该模型将以 RNA 领域基础模型的身份,为该领域的各种各样的研究提供强有力的支援与帮助。
7/16/2022 12:06:00 PM
机器之心

击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了

模型参数量只有 137M,5 天就能训练好。一周前,OpenAI 给广大用户发放福利,在下场修复 GPT-4 变懒的问题后,还顺道上新了 5 个新模型,其中就包括更小且高效的 text-embedding-3-small 嵌入模型。我们知道,嵌入是表示自然语言或代码等内容中概念的数字序列。嵌入使得机器学习模型和其他算法更容易理解内容之间的关联,也更容易执行聚类或检索等任务。可见,嵌入在 NLP 领域是非常重要的。不过,OpenAI 的嵌入模型并不是免费给大家使用的,比如 text-embedding-3-small
2/4/2024 3:31:00 PM
机器之心

该更新啦!6款超好用的SDXL负面提示词Embedding模型

大家好我是花生~ SDXL 1.0 模型发布以来,优质的 SDXL 大模型不断涌现,让图像的生成质量越来越高。但版本迭代后,之前的 SD1.5 的负面提示词 Embedding 并不能和 SDXL 大模型配合使用,而每次都输入一大串的反向提示词又实在麻烦。所以今天就继续给大家推荐 6 款可以配合 SDXL 模型使用的负面提示词 Embedding,它们可以在 SD WebUI 和 ComfyUI 中使用,能有效修复图像缺陷,提升画面细节和质感。 上期回顾:一、UnaestheticXL 链接直达:  (文末有资源包
11/17/2023 8:28:39 AM
夏花生

国产模型首开Hugging Face月度下载全球第一,智源BGE累计下载逾亿

近日,Hugging Face更新了月度榜单,智源研究院的BGE模型登顶榜首,这是中国国产AI模型首次成为Hugging Face月榜冠军。BGE在短短一年时间内,总下载量已超数亿次,是目前下载量最多的国产AI系列模型。BGE,全称BAAI General Embedding,是北京智源人工智能研究院研发的开源通用向量模型,该系列模型专为各类信息检索及大语言模型检索增强应用而打造。
10/11/2024 1:21:00 PM
机器之心

没有思考过 Embedding,谈何 RAG,更不足以谈 AI大模型

今天,我们来聊聊 AI 大模型,有一个非常重要概念 "Embedding"。 你可能听说过它,也可能对它一知半解。 如果你没有深入了解过 Embedding,那你就无法真正掌握 RAG 技术,更不能掌握 AI 大模型精髓所在。
11/21/2024 3:44:21 PM
渔夫

通义千问正式发布Qwen3-Embedding系列模型

近日,通义千问官方正式发布了Qwen3-Embedding系列模型,作为Qwen模型家族的新成员,该系列模型专为文本表征、检索与排序任务而设计。 Qwen3-Embedding系列基于Qwen3基础模型进行训练,充分继承了Qwen3在多语言文本理解能力上的显著优势。 该系列模型在多项基准测试中表现出色,特别是在文本表征和排序任务中展现了卓越性能。
6/6/2025 9:00:55 AM
AI在线

阿里开源千问3向量模型,性能大幅提升,挑战谷歌和OpenAI

在人工智能技术快速发展的今天,阿里巴巴于6月6日正式开源了其全新的千问3向量模型系列 ——Qwen3-Embedding。 该模型是基于千问3底座,为文本表征、检索和排序等任务进行优化,标志着阿里在 AI 领域的又一重大突破。 相较于前一版本,Qwen3-Embedding 在文本检索、聚类和分类等核心任务上的性能提升了超过40%。
6/6/2025 4:00:55 PM
AI在线

大模型中的嵌入向量

前面文章和小伙伴们聊了 Tokenizer,经过 Tokenizer 之后,自然语言变为 Token,那么大模型就可以直接训练 Token 了嘛? 还不行! 接下来还有一个词嵌入的环境,英文就是 Embedding,Embedding 实际上就是将 Token 转为张量,在有的场景下,Embedding 也指张量本身。
7/30/2025 4:15:00 AM
江南一点雨

维度的囚笼:Embedding 检索模型无法逾越的数学边界

大家好,我是肆〇柒。 今天要和大家分享一篇由Google DeepMind与约翰霍普金斯大学联合研究的重要论文《On the Theoretical Limitations of Embedding-Based Retrieval》。 这项研究揭示了一个令人震惊的事实:即使是"谁喜欢考拉袋鼠?
9/9/2025 9:15:12 AM
肆零柒

融合视觉能力,OpenAI 向开发人员提供 GPT-4 Turbo with Vision

感谢OpenAI 宣布,具有视觉能力的最新 GPT-4 Turbo 模型 GPT-4 Turbo with Vision 现已通过 OpenAI API 向开发人员普遍提供。据IT之家了解,该模型延续了 GPT-4 Turbo 系列 128,000 个 token 的窗口大小以及截止至 2023 年 12 月的知识库,最大的革新之处在于其新增的视觉理解能力。在过去,开发者需要调用不同的模型来处理文本和图像信息,而 GPT-4 Turbo with Vision 则将两者合二为一,极大简化了开发流程,并带来了广泛的应
4/10/2024 6:55:27 AM
远洋

马斯克 xAI 展示首个多模态模型 Grok-1.5V:可将流程图转成 Python 代码

感谢马斯克旗下人工智能公司 xAI 于 3 月下旬推出 Grok-1.5 大语言模型之后,近日再次推出首个多模态模型 Grok-1.5 Vision。xAI 表示将于近期邀请早期测试者和现有的 Grok 用户测试 Grok-1.5 Vision(Grok-1.5V),不仅能理解文本,还能处理文档、图表、截图和照片中的内容。xAI 表示:“Grok-1.5V 在多学科推理、文档理解、科学图表、表格处理、屏幕截图和照片等多个领域都能媲美现有的前沿多模态模型”。xAI 在官方新闻稿中演示了 7 个 Grok-1.5V 案
4/13/2024 1:35:07 PM
故渊

微软 Phi-3-vision 基准测试:和 Claude 3-haiku、Gemini 1.0 Pro 相当

微软在 Build 2024 大会上发布了 Phi-3 家族的最新成员--Phi-3-vision,主打“视觉能力”,能够理解图文内容,同时据称可以在移动平台上流畅高效运行。Phi-3-vision 是一款多模态小型语言模型(SLM),主要用于本地 AI 场景,该模型参数量为 42 亿,上下文长度为 128k token,能够为常规视觉推理任务和其他任务提供支持。那么 Phi-3-vision 有多厉害?微软今天发布了新的论文 [PDF],表示该 SLM 和 Claude 3-haiku、Gemini 1.0 Pr
5/28/2024 8:45:08 AM
故渊

视觉Mamba来了:速度提升2.8倍,内存能省87%

Vision Mamba 不是个普通模型。号称「全面包围 Transformer」的 Mamba,推出不到两个月就有了高性能的视觉版。本周四,来自华中科技大学、地平线、智源人工智能研究院等机构的研究者提出了 Vision Mamba(Vim)。论文地址:::Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model效果如何呢?在 ImageNet 分类任务、COCO 对象检测任务和 ADE20
1/19/2024 11:41:00 AM
机器之心

零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先

1 月 22 日,零一万物 Yi 系列模型家族迎来新成员:Yi Vision Language(Yi-VL)多模态语言大模型正式面向全球开源。据悉,Yi-VL 模型基于 Yi 语言模型开发,包括 Yi-VL-34B 和 Yi-VL-6B 两个版本。Yi-VL 模型开源地址:,Yi-VL 模型在英文数据集 MMMU 和中文数据集 CMMMU 上取得了领先成绩,展示了在复杂跨学科任务上的强大实力。MMMU(全名 Massive Multi-discipline Multi-modal Understanding & R
1/22/2024 2:10:00 PM
机器之心

有了这块活地板,成为VR届的「街溜子」

给 VR 系统加了新维度。还记得电视剧《三体》里面汪淼他们用来打游戏的 V 装具吗?和最近苹果发布的 Vision Pro 相比,这套近未来的虚拟现实(VR)设备还多了感应服和「跑步机」等一些组件。很明显的是,除非脑后插管,只有进行从头到脚、所有感官全覆盖,你才能在 VR 设备里充分感受模拟世界的乐趣。然而在可预见的未来,所有此类解决方案都将存在一些不可忽视的缺点。价格是最大的挑战,单买一个 Apple Vision Pro 就要花费 2.5 万人民币,其他可以预见的问题还包括占地面积和噪音。不过在此之前,我们得先
1/24/2024 10:56:00 AM
机器之心
  • 1