去年初,Meta 首席 AI 科学家 Yann LeCun 针对「如何才能打造出接近人类水平的 AI」提出了全新的思路。他勾勒出了构建人类水平 AI 的另一种愿景,指出进修全国模型(即全国如何运作的内部模型)的能力或许是关键。这种学到全国运作方式内部模型的机器可以更快地进修、规划完成复杂的义务,并轻松适应不熟悉的情况。
LeCun 认为,构造自主 AI 需要预计全国模型,而全国模型必须能够执行多模态预计,对应的解决方案是一种叫做分层 JEPA(联合嵌入预计架构)的架构。该架构可以通过堆叠的方式进行更笼统、更长期的预计。6 月 9 日,在 2023 北京智源大会开幕式的 keynote 演讲中,LeCun 又再次讲解了全国模型的概念,他认为基于自监视的语言模型无法获得关于真实全国的知识,这些模型在本质上是不可控的。今日,Meta 推出了首个基于 LeCun 全国模型概念的 AI 模型。该模型名为图象联合嵌入预计架构(Image Joint Embedding Predictive Architecture, I-JEPA),它通过创建外部全国的内部模型来进修, 比较图象的笼统表明(而不是比较像素本身)。I-JEPA 在多项计算机视觉义务上取得非常不错的效果,并且计算效率远高于其他广泛运用的计算机视觉模型。此外 I-JEPA 学得的表明也可以用于很多不同的应用,无需进行大量微调。
举个例子,Meta 在 72 小时内运用 16 块 A100 GPU 训练了一个 632M 参数的视觉 transformer 模型,还在 ImageNet 上实现了 low-shot 分类的 SOTA 性能,其中每个类只有 12 个标签样本。其他要领通常需要 2 到 10 倍的 GPU 小时数,并在运用相同数据量训练时误差率更高。相关的论文《Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture》已被 CVPR 2023 接收。当然,所有的训练代码和模型检查点都将开源。
论文地址:https://arxiv.org/pdf/2301.08243.pdfGitHub 地址:https://t.co/DgS9XiwnMz通过自监视进修获取常识型知识I-JEPA 基于一个事实,即人类仅通过被动观察就可以了解关于全国的大量背景知识,这些常识信息被认为是实现智能行为的关键。通常,AI 研究人员会设计进修算法来捕捉现实全国的常识,并将其编码为算法可访问的数字表征。为了高效,这些表征需要以自监视的方式来进修,即直接从图象或声音等未标记的数据中进修,而不是从手动标记的数据集中进修。在高层级上,JEPA 的一个输入中某个片面的表征是根据其他片面的表征来预计的。同时,通过在高笼统层次上预计表征而不是直接预计像素值,JEPA 能够直接进修有用的表征,同时避免了天生模型的局限性。相比之下,天生模型会通过删除或扭曲模型输入的片面内容来进修。然而,天生模型的一个显著缺点是模型试图填补每一点缺失的信息,即使现实全国本质上是不可预计的。因此,天生模型过于关注不相关的细节,而不是捕捉高级可预计的概念。
自监视进修的通用架构,其中系统进修捕捉其输入之间的关系。迈向能力广泛的 JEPA 的第一步I-JEPA 的核心思路是以更类似于人类理解的笼统表征来预计缺失信息。与在像素 /token 空间中进行预计的天生要领相比,I-JEPA 运用笼统的预计目标,潜在地消除了不必要的像素级细节,从而使模型进修更多语义特征。另一个引导 I-JEPA 产生语义表征的核心设计是多块掩码策略。该研究运用信息丰富的上下文来预计包含语义信息的块,并表明这是非常必要的。
I-JEPA 运用单个上下文块来预计源自同一图象的各种目标块的表征。I-JEPA 中的预计器可以看作是一个原始的(和受限的)全国模型,它能够从片面可观察的上下文中模拟静态图象中的空间不确定性。更重要的是,这个全国模型是语义级的,因为它预计图象中不可见区域的高级信息,而不是像素级细节。
预计器如何进修建模全国的语义。对于每张图象,蓝框外的片面被编码并作为上下文提供给预计器。然后预计器输入它期望在蓝框内区域的表明。为了可视化预计,Meta 训练了一个天生模型, 它天生了由预计输入表明的内容草图,并在蓝框内显示样本输入。很明显,预计器识别出了应该填充哪些片面的语义(如狗的头部、鸟的腿、狼的前肢、建筑物的另一侧)。为了理解模型捕捉的内容,Meta 训练了一个随机解码器,将 I-JEPA 预计的表明映射回像素空间,这展示出了探针操作后在蓝框中进行预计时的模型输入。这种定性评价表明,I-JEPA 正确捕捉了位置不确定性,并天生了具有正确姿态的高级对象片面(如狗的头部、狼的前肢)。简而言之,I-JEPA 能够进修对象片面的高级表明,而不会丢弃它们在图象中的局部位置信息。高效率、强性能I-JEPA 预训练在计算上也很高效,在运用更多计算密集型数据增强来天生多个视图时不会产生任何开销。目标编码器只需要处理图象的一个视图,上下文编码器只需要处理上下文块。实验发现,I-JEPA 在不运用手动视图增强的情况下进修了强大的现成语义表明,具体可见下图。此外 I-JEPA 还在 ImageNet-1K 线性探针和半监视评价上优于像素和 token 重建要领。ImageNet-1k 数据集上的线性评价。I-JEPA 还能与以往在语义义务上依赖手动数据增强的要领竞争。相比之下,I-JEPA 在对象计数和深度预计等低级视觉义务上取得了更好的性能。通过运用较小刚性归纳偏置的更简单模型,I-JEPA 适用于更广泛的义务集合。
low shot 分类准确性:运用 1% 标签时 ImageNet-1k 上的半监视评价结果(每类只有 12 张标签图象)。AI 智能向人类水平更近了一步I-JEPA 展示了无需通过手动图象变换来编码额外知识时,进修有竞争力的现成图象表明的潜力。继续推进 JEPA 以从更丰富模态中进修更通用全国模型将变得特别有趣,比如人们从一个短上下文中对视频中的将来事件做出长期空间和时间预计,并利用音频或文本 prompt 对这些预计进行调整。Meta 希望将 JEPA 要领扩展到其他领域,比如图象 – 文本配对数据和视频数据。未来,JEPA 模型可以在视频理解等义务中得到应用。这是应用和扩展自监视要领来进修更通用全国模型的重要一步。原文链接:https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa/
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/20586