大佬会告诉你,强大的 AI 技术 idea 应该非常单一,实现起来也很快捷。什么样的 AI 论文能刚上 arXiv 不到半天,就成为知乎热搜?
而且热度还能以肉眼可见的速度上升。
11 月 12 日,一篇由 Facebook AI 研讨院完成、何恺明一作的论文《Masked Autoencoders Are Scalable Vision Learners》成为了计算机视觉圈的热门话题。
论文链接:https://arxiv.org/abs/2111.06377社交网络上已有不止一人说,这篇论文说不定能「预定」CVPR 2022 的最佳。虽然我们还不能武断地认为它就是近期最重要的研讨,但 MAE 研讨的确是按照 CVPR 格式上传的,而且看来已是一个很有质量的工作。11 月 9 日,CVPR 2022 大会刚刚截止论文注册,论文提交的 Deadline 是太平洋时间 16 号晚 12 点。这篇论文展示了一种被称为遮掩自编码器(masked autoencoders,MAE)的新方式,可以用作计算机视觉的可扩展自监视进修器。MAE 的方式很单一:遮掩输出图象的随机区块并重修丢失的像素。它基于两个核心理念:研讨人员开发了一个非对称编码器 – 解码器架构,其中一个编码器只对可见的 patch 子集进行操作(没有遮掩 token),另一个单一解码器可以从潜在表征和遮掩 token 重修原始图象。研讨人员进一步发现,遮掩大部分输出图象(例如 75%)会产生重要且有意义的自监视工作。结合这两种设计,我们就能高效地训练大型模型:提升训练速度至 3 倍或更多,并提高准确性。作者认为,这种可扩展方式允许进修泛化良好的高容量模型:例如在仅使用 ImageNet-1K 数据的方式中,vanilla ViT-Huge 模型实现了最佳准确率 (87.8%)。在下游工作中的传输性能优于有监视的预训练,并显示出可观的扩展能力。用 MAE 做 pre-training 只需 ImageNet-1k 就能达到超过 87% 的 top 1 准确度,超过了所有在 ImageNet-21k pre-training 的 ViT 变体模型。而从方式上看,MAE 选择直接重修原图的元素,而且证明了其可行性,改变了人们的认知,又几乎可以覆盖 CV 里所有的识别类工作,看起来像是开启了一个新的方向。论文概览近些年来,深度进修领域出现了一大批能力、容量均不断增长的架构。在不断升级的硬件的支持下,今天的模型已经能够轻松地消化数百万张图象,而且开始向数以亿计的标记图象进发。在自然语言处理中,这种数据需求已经成功地通过自监视预训练来解决。基于 GPT 自回归语言建模和 BERT 遮掩自编码的解决方案在概念上非常单一:它们删除一部分数据,并进修预测删除的内容。这些方式可以用来训练包含数千亿参数的可泛化 NLP 模型。遮掩自编码器是一种更通用的去噪自编码器,也适用于计算机视觉。其实,与视觉密切相关的研讨早于 BERT。在 BERT 成功之后,人们对这一想法也产生了极大的兴趣。但尽管如此,视觉自编码方式的发展还是落后于 NLP。何恺明等研讨者想知道:是什么造成了这种差异?他们尝试从以下几个角度来回答这一问题:1、架构差异。在计算机视觉领域,卷积网络是过去十年的主流架构。不过,随着 Vision Transformers(ViT)的推出,这种架构上的差异已经逐渐缩小,应该不会再成为障碍。2、信息密度差异。语言是人类产生的高度语义化信号,信息非常密集。当训练一个模型来预测每个句子中缺失的寥寥数词时,这项工作似乎能诱发复杂的语言理解。但视觉工作就不同了:图象是自然信号,拥有大量的空间冗余。例如,一个缺失的 patch 可以根据相邻的 patch 恢复,而不需要对其他部分、对象和场景有很多的高级理解。为了克服这种差异并鼓励进修有用的特征,研讨者展示了:一个单一的策略在计算机视觉中也能非常有效:遮掩很大一部分随机 patch。这种策略在很大程度上减少了冗余,并创造了一个具有挑战性的自监视工作,该工作需要超越低级图象统计的整体理解。下图 2 – 图 4 展示了这一重修工作的定性结果。
3、自编码器的解码器(将潜在表征映射回输出)在文本和图象重修工作中起着不同的作用。在计算机视觉工作中,解码器重修的是像素,因此其输出的语义水平低于一般的识别工作。这与语言相反,语言工作中的解码器预测的是包含丰富语义信息的缺失单词。虽然在 BERT 中,解码器可能是微不足道的(一个 MLP),但何恺明等研讨者发现,对于图象,解码器的设计对于学到的潜在表示的语义水平起着关键作用。基于以上分析,研讨者提出了一种单一、有效且可扩展的遮掩自编码器(MAE)用于视觉表征进修。该 MAE 从输出图象中遮掩了随机 patch 并重修像素空间中缺失的 patch。它具有非对称的编码器 – 解码器设计。其中,编码器仅对 patch 的可见子集(没有掩码 token)进行操作,解码器则是轻量级的,可以从潜在表征和掩码 token 中重修输出(图 1)。在这个非对称编码器 – 解码器中,将掩码 token 转移到小型解码器会导致计算量大幅减少。在这种设计下,非常高的遮掩率(例如 75%)可以实现双赢:它优化了准确性,同时允许编码器仅处理一小部分(例如 25%)的 patch。这可以将整体预训练时间减少至原来的 1/3 或更低,同时减少内存消耗,使我们能够轻松地将 MAE 扩展到大型模型。
MAE 可以进修非常大容量的模型,而且泛化性能良好。通过 MAE 预训练,研讨者可以在 ImageNet-1K 上训练 ViT-Large/-Huge 等需要大量数据的模型,提高泛化性能。例如,在 ImageNet-1K 数据集上,原始 ViT-Huge 模型经过微调后可以实现 87.8% 的准确率。这比以前所有仅使用 ImageNet-1K 数据的模型效果都要好。
研讨者还对 MAE 进行了迁移进修方面的评估,具体工作包括目标检测、实例分割、语义分割等。实验结果表明,MAE 实现了比监视预训练更好的结果。更重要的是,随着模型规模的扩大,MAE 的收益也越来越明显。这些结果与 NLP 预训练中观察到的自监视预训练结果一致。
具有良好扩展性的单一算法是深度进修的核心。在 NLP 中,单一的自监视进修方式(如 BERT)可以从指数级增大的模型中获益。在计算机视觉中,尽管自监视进修取得了进展,但实际的预训练范式仍是监视进修。在 MAE 研讨中,研讨人员在 ImageNet 和迁移进修中观察到自编码器——一种类似于 NLP 技术的单一自监视方式——提供了可扩展的前景。视觉中的自监视进修可能会因此走上与 NLP 类似的轨迹。MAE 架构细节遮掩与 ViT 类似,该方式将图象划分为规则的非重叠 patch,然后对 patch 的子集进行采样,并遮掩(移除)剩余的 patch。该方式的采样策略很单一:不带替换地随机采样 patch,遵循均匀分布。研讨者将其称为「随机采样」。具有高遮掩率(即移除 patch 的比率)的随机采样在很大程度上消除了冗余,从而创建了一项无法借助可见相邻 patch 外推(extrapolation)来轻松解决的工作。均匀分布可以避免出现潜在的中心偏置(center bias,即图象中心附近有更多的遮掩 patch)。最后,高度稀疏的输出有助于设计高效的编码器。MAE 编码器该方式的编码器是一个仅适用于可见、未遮掩 patch 的 ViT。就像在一个标准的 ViT 中一样,该编码器通过添加位置嵌入的线性投影嵌入 patch,然后通过一系列 Transformer 块处理结果集。但该编码器只对整个集合的一小部分(例如 25%)进行操作。被遮掩的 patch 被移除;不使用遮掩 token。这使得该方式能够仅使用一小部分计算和内存来训练非常大的编码器。MAE 解码器MAE 解码器的输出是一个完整的 token 集,包括 (i) 已编码的可见 patch 和 (ii) 遮掩 token,如上图 1 所示。每个遮掩 token 是一个共享的学得向量,指示是否存在需要预测的缺失 patch。该研讨为这个完整集合中的所有 token 添加了位置嵌入,否则遮掩 token 将没有关于它们在图象中位置的信息。解码器也有一系列的 Transformer 块。MAE 解码器仅在预训练期间用于执行图象重修工作,仅使用编码器生成用于识别的图象表征,因此可以以独立于编码器设计的方式灵活地设计解码器的架构。该研讨尝试了非常小的解码器,比编码器更窄更浅。例如该方式的默认解码器每个 token 的计算量仅为编码器的 10% 以下。通过这种非对称设计,所有 token 仅用轻量级解码器处理,显著减少了预训练时间。一作简介
何恺明是 AI 领域著名的研讨者。2003 年他以标准分 900 分获得广东省高考总分第一,被清华大学物理系基础科学班录取。在清华物理系基础科学班毕业后,他进入香港中文大学多媒体实验室攻读博士学位,师从汤晓鸥。何恺明曾于 2007 年进入微软亚洲研讨院视觉计算组实习,实习导师为孙剑。2011 年博士毕业后,他加入微软亚洲研讨院工作,任研讨员。2016 年,何恺明加入 Facebook 人工智能实验室,任研讨科学家至今。何恺明曾于 2009 年拿到国际计算机视觉顶会 CVPR 的 Best Paper,2016 年再获 Best Paper 奖,2021 年有一篇论文是最佳论文的候选。何恺明还因为 Mask R-CNN 获得过 ICCV 2017 的最佳论文(Marr Prize),同时也参与了当年最佳学生论文的研讨。参考内容:https://www.zhihu.com/question/498364155https://arxiv.org/pdf/2111.06377.pdf
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/31340