AI在线 AI在线

LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

LeCun 的联合嵌入预测架构(JEPA)迎来了新进展。 近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型:VL-JEPA。 据作者 Pascale Fung 介绍,VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言任务的非生成模型。

LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VLLeCun 的联合嵌入预测架构(JEPA)迎来了新进展。

近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型:VL-JEPA

据作者 Pascale Fung 介绍,VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言任务的非生成模型

图片

下面展示了一段该模型实时工作的视频:LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

不同于传统的视觉-语言模型(VLM)通过自回归方式生成 token,VL-JEPA 预测的是目标文本的连续嵌入(embedding)。通过在抽象的表征空间中学习,该模型能够专注于与任务相关的语义,同时忽略表层语言形式的多变性 。

图片
  • 论文标题:VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

  • 论文地址:https://arxiv.org/abs/2512.10942

该论文共有四位共一作者:Delong Chen(陈德龙)、Mustafa Shukor、Théo Moutakanni、Willy Chung。JEPA 提出者、图灵奖得主 Yann LeCun 也在作者名单中。

当前 VLM 面临的困难

理解周围的物理世界是高级机器智能最重要的方面之一。这种能力使 AI 系统能够在现实世界中学习、推理、规划和行动,从而协助人类。

需要在现实世界中行动的智能系统包括可穿戴设备和机器人。构成这一能力的机器学习任务包括描述生成(captioning)、检索、视觉问答、动作跟踪、推理和规划等。用于此类现实世界应用的系统必须具备实时响应能力,且具有低延迟和低推理成本。

目前,完成这些任务的通用方法是使用基于 token 生成的大型视觉 - 语言模型(VLM)。

这些模型接收视觉输入 X_V 和文本查询 X_Q,在 token 空间中自回归地生成所需的文本响应 Y,即 (X_V,X_Q)↦ Y。这种方法虽然直观,但也有不足,原因主要有二:

  • VLM 的开发成本高昂。因为它们的训练目标是生成响应 Y,这要求模型捕捉任务相关的语义,同时还要处理与任务无关的表层语言特征(如选词、风格或改写)。在训练过程中,VLM 必须同时对这两个方面建模,导致计算资源被浪费在生成多样化的 token 序列上,而这些序列最终并不影响输出的正确性。

  • 实时任务面临延迟挑战。涉及直播视频的实时任务(如实时动作跟踪)需要稀疏且选择性的解码(例如,仅在新事件发生时才发出描述)。然而,VLM 依赖于逐 token 的自回归解码,必须在揭示 Y 的底层语义之前完成整个解码过程。这一过程引入了不必要的延迟,并阻碍了实时动态更新语义的能力。

视觉-语言联合嵌入预测架构(VL-JEPA)

这个联合团队开发的视觉-语言联合嵌入预测架构(VL-JEPA)能将昂贵的数据空间 token 生成学习转变为更高效的潜空间语义预测。

图片

如图 1 所示,该模型会使用 x-encoder 将视觉输入 X_V 映射为嵌入 S_V,使用 y-encoder 将目标文本 Y 映射为嵌入 S_Y,并使用一个预测器来学习映射 (S_V,X_Q)↦ S_Y,其中 X_Q 是文本查询(即提示词)。

训练目标定义在嵌入空间 𝓛_{VL-JEPA}=D (Ŝ_Y,S_Y),而不是数据空间 𝓛_VLM=D (Ŷ,Y)。在推理过程中,当需要时,y-encoder 会将预测的嵌入 Ŝ_Y 读出为文本空间 Ŷ。

得益于其非生成式的特性,VL-JEPA 不必在 token 空间重建 Y 的每一个表层细节。相反,它只需要在嵌入空间预测抽象表征 S_Y。

图片

在原始的 One-hot token 空间中,对于同一输入,不同的合理输出 Y 如果不共享重叠的 token,往往看起来几乎是正交的。然而,在嵌入空间中,这些多样化的目标可以被映射到共享相似语义的邻近点。

这就简化了目标分布,从而使学习过程更加高效。此外,与 VLM 不同,这种方法消除了在训练期间使用重型解码器学习语言生成的需要,从而显著提高了效率。

同时,得益于其非自回归的特性,VL-JEPA 可以在滑动窗口内以极低的延迟产生连续的目标语义嵌入流,因为它只需要一次前向传递,无需自回归解码。

这对实时在线应用(如实时动作跟踪、场景识别或规划)特别有利,在这些应用中,嵌入流可以被轻量级的 Y-Decoder 选择性地解码,从而实现高效且及时的更新。

实验表现

VL-JEPA 的优势也得到了实验验证。

该团队将其与经典的 token 生成式 VLM 进行了比较 :两种设置使用相同的视觉编码器、空间分辨率、帧率、训练数据、批量大小和迭代次数等,唯一的区别在于目标是在 token 空间还是嵌入空间。

在这种匹配的训练条件下,VL-JEPA 在零样本描述生成和分类上提供了一致的更高性能,同时使用的可训练参数大约只有一半,这表明嵌入空间监督提高了学习效率。

除了训练阶段,VL-JEPA 还通过选择性解码(selective decoding)带来了显著的推理效率提升,即仅在预测的嵌入流发生显著变化时才进行解码。

图片

实验表明,该策略将解码操作次数减少了约 2.85 倍,同时保持了以平均 CIDEr 分数衡量的整体输出质量。

该团队最终的 VL-JEPA 模型分两个阶段训练:

  • 使用描述数据进行预训练,以建立稳健的视觉-语言对齐;

  • 监督微调(SFT)阶段,赋予模型 VQA 能力。

第一阶段产生的模型称为 VL-JEPA_BASE,在零样本分类和文本到视频检索方面进行了评估。

图片

VL-JEPA_BASE 在平均分类准确率(跨 8 个数据集)和检索 recall@1(跨 8 个数据集)方面优于 CLIP、SigLIP2 和 Perception Encoder 模型。

经过第二阶段后,得到的 VL-JEPA_SFT 由于接触了域内训练数据,分类性能显著提高。

图片

作为一个统一的通用模型,VL-JEPA_SFT 接近了针对单个基准优化的专用模型的性能。同时,VL-JEPA_SFT 展现了有效的 VQA 能力,在涵盖组合视觉推理、复杂对象计数和对象幻觉的四个数据集上,达到了与 InstructBLIP 和 Qwen-VL 等成熟 VLM 系列相当的性能。

以下视频演示了使用 VL-JEPA 进行机器人实时状态跟踪 (RoboVQA):LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

该团队也进行了消融实验验证 VL-JEPA 各组件的有效性。更多详情请参阅原论文。

相关资讯

小米多模态大模型Xiaomi MiMo-VL开源

近日,小米公司研发的MiMo-VL多模态模型接过MiMo-7B的接力棒,在多个领域展现出了强大的实力。 该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B,在GUI Grounding任务上的表现更是可与专用模型相媲美,为Agent时代的到来做好了准备。 MiMo-VL-7B在多模态推理任务上成绩斐然,尽管参数规模仅为7B,却在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)中大幅领先参数规模10倍大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,同时也超越了闭源模型GPT-4o。
5/30/2025 10:01:14 AM
AI在线

Being-VL的视觉BPE路线:把「看」和「说」真正统一起来

在多模态模型里,CLIP-style encoder 往往把视觉表征过早地拉近到文本空间:对于抽象层面的问答,如总结图片大致内容,这样的表征其实是没有什么问题的,但一旦追问与语言无强依赖的细节,模型就更易出现幻觉。 根本原因之一,是在文本空间对齐之前,原生视觉结构已被不可逆地压缩 / 丢失,而语言模型不得不「二次解码」来自他模态的 embedding,导致对齐脆弱、推理链条变长。 为此,北大、UC San Diego 和 BeingBeyond 联合提出一种新的方法——Being-VL 的视觉 BPE 路线。
10/9/2025 10:40:00 AM
机器之心

多模态大模型,阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力,最近有了大幅提升。2024 年,大模型领域要卷什么?如果没有思路的话,不妨看看各家大厂都在押注什么方向。最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型拥有了前所未有的图像语义理解能力。谷歌随后跟上,发布的 Gemini 成为了业界第一个原生的多模态大模型,它可以泛化并无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。很明显,新的方向就是多模态。继 GPT-4 在语言方向的里程碑式突破之后,业界普遍认为「视觉」是下一个爆发的赛道。毕竟人类的五感之中有 80
1/26/2024 2:53:00 PM
机器之心