LeCun力荐的JEPA杀入LLM，用CV的思路训练LLM，性能鲁棒性双丰收

LeCun 这次不是批评 LLM，而是亲自改造。当前 LLM 的训练（包括预训练、微调和评估）主要依赖于在「输入空间」进行重构与生成，例如预测下一个词。而在 CV 领域，基于「嵌入空间」的训练目标，如联合嵌入预测架构（JEPA），已被证明远优于在输入空间操作的同类方法。

LeCun 这次不是批评 LLM，而是亲自改造。

当前 LLM 的训练（包括预训练、微调和评估）主要依赖于在「输入空间」进行重构与生成，例如预测下一个词。

而在 CV 领域，基于「嵌入空间」的训练目标，如联合嵌入预测架构（JEPA），已被证明远优于在输入空间操作的同类方法。

JEPA 的核心概念最早由 Yann LeCun 及其团队提出，旨在通过在抽象表征空间中预测未来或缺失的特征来高效学习世界知识。随后，Meta AI 团队提出了具体实现，包括 I-JEPA（用于图像、自监督学习、CVPR 2023）和 V-JEPA（用于视频），验证了 JEPA 在视觉表征学习中的有效性。

这就启发了一个新思路：语言模型的训练，能否从视觉领域获得一些启发？

此前，由于设计上的挑战，适用于语言任务的 JEPA 风格模型一直未能出现。主要原因是 LLM 的能力主要通过其生成文本来评判，这是一种输入空间的操作，使得非重构的 JEPA 思想难以直接应用。

为填补这一空白，Hai Huang、Yann LeCun 及 Randall Balestriero 提出了 LLM-JEPA。这项工作基于 JEPA 理念，首次将这种高效的自监督学习架构成功地从视觉领域扩展到了 LLM。

该工作通过将（文本、代码）等数据对视为同一概念的多种视图，成功地将 JEPA 目标应用于 LLM，作为标准「文本→代码」等生成任务的有效补充。这既保留了 LLM 强大的生成能力，又引入了 JEPA 在嵌入空间学习高质量表征的优势。

论文标题： LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures
论文地址：https://arxiv.org/pdf/2509.14252v1
代码：https://github.com/rbalestr-lab/llm-jepa

实验证明，LLM-JEPA 的性能显著超越了标准的 LLM 训练目标。该方法不仅表现出色，还对过拟合问题显示出强大的鲁棒性。

这些结论在 Llama3、OpenELM、Gemma2、Olmo 等多个主流模型系列以及 NL-RX、GSM8K、Spider、Rotten Tomatoes 等多样化的数据集上均得到了有力验证。

JEPA-LLM：提升 LLM 的推理与生成能力

LLM 简介

当代 LLM 的构建大多遵循着相同的核心原则：即通过堆叠大量的非线性运算层与跳跃连接（即 Transformer 架构）来搭建。

尽管各模型在细节上，如位置嵌入、初始化方法或归一化层上可能有所不同，但其性能表现的主要驱动力，依旧是预训练阶段所使用的高质量数据集。在训练目标上，现有方法也基本趋于统一，即自回归 token 空间重构。

作者首先将特定任务和数据集下所使用的典型 LLM 目标函数定义为。在绝大多数情况下，该函数具体表现为一个交叉熵损失，用于衡量模型预测的 token 与需要重构的真实 token 之间的差异。

值得注意的是，该研究提出的 LLM-JEPA 方法并不依赖于的具体形式，因此具有很强的通用性，能够适应多种应用场景。

在此公式中，Classifier 负责根据上下文 token 来预测下一个 token 的 logits。整个计算过程通过因果自回归机制一次性完成。根据训练阶段或任务的不同，该损失函数的输入与输出也会相应变化。

LLM-JEPA 目标函数的设计

作者以「Text」（文本）和「Code」（代码）为例，来说明如何处理对同一底层知识的不同「视角（view）」。通过这个例子，读者可以清晰地理解，LLM-JEPA 目标函数能够以统一的方式处理各种不同类型的视角。

LLM-JEPA 目标函数的设计遵循两大原则：第一，必须保留 LLM 的生成能力，因此算法的起点是传统的损失。第二，旨在利用联合嵌入预测任务来增强 LLM 的抽象能力。

基于此，研究团队在之上，引入了成熟的 JEPA 目标，构建了如下的完整损失函数 L：

其中，λ≥0 是一个用于平衡两项损失权重的超参数；Pred 和 Enc 分别代表预测器和编码器网络；d 则是一个可选择的度量函数，例如 ℓ2 距离。下面将对各个组件进行详细说明。

编码器： 编码器的实现方式沿用了 LLM 探查中的常见做法，即取模型最后一层最后一个 token 的 hidden_state 作为输入序列的嵌入向量。在实践中，研究团队指出，无法通过单次前向传播同时产出 Enc(Text) 和 Enc(Code)。一种看似高效的做法是将 [Text,Code] 拼接后输入，但这需要修改自注意力机制以避免跨视角信息泄露，从而导致方案与特定 LLM 架构绑定。为此，研究团队提出通过两次独立的前向传播来分别获取 Text 和 Code 的编码。这种方式虽然增加了训练成本，但并不影响推理效率。

度量： 在嵌入向量的比较方面，CV 领域已广泛采用余弦相似度。因此，该研究建议在 LLM-JEPA 中也采用相同的度量方式。

预测： 该设计巧妙地利用了 LLM 的自回归特性和内部的自注意力机制，构建了一个权重绑定预测器。具体来说，通过在输入序列末尾添加一个特殊的 [PRED] token ，模型可以对输入信息进行进一步的非线性处理，并将最后一层 [PRED] token 对应的最终嵌入作为预测结果。由于预测任务复用了 LLM 的内部权重，这种设计极大地减少了额外的训练开销和架构设计的复杂性。实践中，通过在输入提示后附加 k 个预测器 token ，并取最后一个 token 的嵌入作为最终预测。当 k=0 时，预测器退化为恒等函数，即。

与先前工作的关系： 研究表明，类似这样的输入空间重构损失（token 可视为原始文本的无损压缩）在视觉领域并非最优。受此启发，一些研究开始为 LLM 引入嵌入空间正则化器。然而，现有方案大多依赖对嵌入空间施加复杂的结构性约束（如层次结构、聚类等），这与 JEPA 的理念不同。作者同时指出，将（文本问题、代码差异）这类数据对视为不同「视角」并加以利用，在 LLM 微调中已有应用，但它们通常通过生成式任务（从一个视角生成另一个）来学习，并未采用 JEPA 风格的损失函数。