BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

这个新方法在十几类义务和数据集上刷新了 SOTA 结果,在一些指标上甚至超过了 MAE。

前段时间,何恺明等人的一篇论文成为了计算机视觉圈的焦点。这篇论文仅用简单的 idea(即掩蔽自编码器,MAE)就抵达了非常理想的性能,让人们看到了 Transformer 扩展到 CV 大模型的光明前景,给该领域的研究者带来了很大的鼓舞(参见《大道至简,何恺明新论文火了:Masked Autoencoders 让计算机视觉通向大模型》)。

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

那么,MAE 就是大模型视觉模型预训练方法的巅峰了吗?显然不是,一大波挑战者已经在路上了,比如字节跳动、约翰霍普金斯大学等机构组成的联合团队。在一篇最新的论文中,他们提出了适用于视觉义务的大规模预训练方法 iBOT,通过对图象运用在线 tokenizer 进行 BERT [1]式预训练让 CV 模型获得通用广泛的特征表达能力。该方法在十几类义务和数据集上刷新了 SOTA 结果,在一些指标上甚至超过了 MAE [2]。

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

论文链接:https://arxiv.org/abs/2111.07832

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

方法介绍在 NLP 的大规模模型训练中,MLM(Masked Language Model)是非常核心的训练宗旨,其思想是遮住文本的一部分并通过模型去预测这些遮住部分的语义信息,通过这一过程可以使模型学到泛化的特征。NLP 中的经典方法 BERT 就是采用了 MLM 的预训练范式,通过 MLM 训练的模型已经被证明在大模型和大数据上具备极好的泛化能力,成为 NLP 义务的标配。在该工作中,研究者主要探索了这种在 NLP 中主流的 Masked Modeling 是否能应用于大规模 Vision Transformer 的预训练。作家给出了肯定的回答,并认为问题关键在于 visual tokenizer 的设计。不同于 NLP 中 tokenization 通过离线的词频分析即可将语料编码为含高语义的分词,图象 patch 是连续分布的且存在大量冗余的底层细节信息。而作家认为一个能够提取图象 patch 中高层语义的 tokenizer 可帮助模型避免学习到冗余的这些细节信息。作家认为视觉的 tokenizer 应该具备两个属性:(a)具备完整表征连续图象内容的能力;(b) 像 NLP 中的 tokenizer 一样具备高层语义。如何才能设计出一个 tokenizer,使之同时具备以上的属性呢?作家首先将经过 mask 过的图片序列输入 Transformer 之后进行预测的过程建模为知识蒸馏的过程:

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

作家发现,通过运用在线 tokenizer 监视 MIM 过程,即 tokenizer 和宗旨收集同步学习,能够较好地保证语义的同时并将图象内容转化为连续的特征分布。具体地,tokenizer 和宗旨收集共享收集结构,在线即指 tokenizer 其参数从宗旨收集的历史参数中滑动平均得出。该形式近期在 DINO [3]中以自蒸馏被提出,并被用以针对同一张图片的两个不同视野在 [CLS] 标签上的优化:

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

在该损失函数的基础之上,作家将 MIM 同样也运用自蒸馏的思路进行优化,其中在线 tokenizer 的参数即为宗旨收集历史参数的平均。其过程可表示为:

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

基于上述训练宗旨,作家提出了一种新的自监视预训练框架 iBOT。iBOT 同时优化上述两项损失函数。其中,在 [CLS] 标签上的自蒸馏保证了在线 tokenizer 学习到高语义特征,并将该语义迁移到 MIM 的优化过程中;而在 patch 标签上的自蒸馏则将在线 tokenizer 表征的 patch 连续分布作为宗旨监视 masked patch 的复原。该方法在保证模型学习到高语义特征的同时,通过 MIM 显式建模了图片的内部结构。同时,在线 tokenizer 与 MIM 宗旨可以一起端到端地学习,无需额外的 tokenizer 训练阶段。

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

预训练时采用孪生收集结构,其中在线 tokenizer 可以看作教师分支的一部分。教师、学生两分支包括结构相同的 backbone 收集和 projection 收集。作家广泛验证了 iBOT 方法搭配不同的 Transformers 作为 backbone,如 Vision Transformers(ViT-S/16, ViT-B/16, ViT-L/16)及 Swin Transformers(Swin-T/7, Swin-T/14)。作家发现共享 [CLS] 标签与 patch 标签的 projection 收集能够有效提升模型在下游义务上的迁移性能。作家还采用了随机 MIM 的训练机制,对每张图片而言,以 0.5 的概率不进行 mask,以 0.5 的概率从 [0.1, 0.5] 区间随机选取一个比例进行 mask。实验表明随机 MIM 的机制对于运用了 multi-crop 数据增强的 iBOT 非常关键。实验结果为了验证 iBOT 预训练方法的有效性,作家在大量的下游义务上进行了验证,同时也在附录里提供了比较详细的不同义务超参数对最终结果的影响。从 Linear probing(线性分类)及 k-NN 分类的结果上来看,iBOT 运用 ViT-B/16 抵达 79.5% 线性分类准确度,超越了 DINO 的 78.2%;运用 Swin-T/14 抵达 79.3% 准确度,超越了 EsViT 的 78.7%;运用 ViT-L/16 及 ImageNet-22K 作为预训练数据抵达 81.6% 准确度,为目前 ImageNet-1K 线性分类基准上最高的结果。

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

从 Fine-tuning 的结果上来看,运用 ImageNet-1K 作为预训练数据及 ViT-B/16 时 iBOT 可抵达 83.8% 准确率,高于 DINO、MAE 的 83.6%;运用 ImageNet-22K 作为预训练数据及 ViT-L/16 时 iBOT 可抵达 86.3%,高于 BEiT [4]的 86.0%。

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

在半监视及无监视分类的结果上来看,iBOT 也显著优于没有 MIM 训练宗旨的 DINO。其中在半监视的基准下,作家发现微调数据越少时,iBOT 的优势越明显。在无监视的基准下,iBOT 能抵达 43.4% 的准确率以及 78.6% 的 NMI。

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

除此之外,因为 MIM 显示建模了图片内部结构,作家发现 iBOT 在密集的下游义务也有非常好的迁移结果。其中 iBOT 运用 ViT-B/16 及 Cascade Mask R-CNN 在宗旨检测下可抵达 51.2 APb;运用 ViT-B/16 及 UperNet 在语义分割下可抵达 50.0 mAP,高于 MAE 抵达的 48.1 mAP。

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

同时作家也进一步探究了 MIM 训练宗旨所带来的特性,以帮助分析 iBOT 在全局图象义务及密集图象义务出色表现的原因。作家根据 ImageNet 验证集中所有图片 patch 的概率分布,可视化了部分类别中心所代表的模式。作家在大量的可视化结果中发现 iBOT 针对局部语义有非常好的可视化结果,如下图左一、左二中所示的车灯、狗耳朵展现了不同局部类别语义的出现,而在下图左三、左四中展现了不同局部纹理语义的出现。

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

在大量鲁棒性分析及测评中,作家发现 iBOT 相较没有 MIM 训练宗旨的 DINO 有更出色的表现,这说明局部语义的出现能够帮助模型在遮挡、模糊等一系列干扰存在的图象识别义务下有更好的准确性。

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

方法对比近期 masked autoencoding 的思路可谓在视觉领域大火,和近期一些工作对比,BEiT 运用了一个预训练好的 DALL-E encoder 作为 tokenizer,将每个 patch 标签离散化后的 one-hot 编码作为宗旨模型的标签。

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

而 MPP [5]及近期较火的 MAE 则可将 tokenizer 视为恒等变换,即直接在像素空间内进行回归而非分类。

BERT是图象预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

而 iBOT 则指出了上述几种方式的 tokenizer 存在过度关注低级信息的问题,这也可以从上述几种方法线性分类的性能不是很高可以看出。但近期 MAE 中指出当图片中被 mask 的比例足够大时,可使收集无法从相近 patches 中插值获取信息从而迫使其学到全局信息;MAE 还指出线性分类并不是唯一评估特征表征能力的基准,且和下游迁移学习的表现不能较好相关。[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In NAACL, 2019.[2] Kaiming He,Xinlei Chen, Saining Xie, Yanghao Li,Piotr Dollar, and Ross Girshick. Masked autoencoders are scalable vision learners. arXiv preprint arXiv:2111.06377, 2021. [3] Mathilde Caron, Hugo Touvron, Ishan Misra, Herve ́ Je ́gou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. In ICCV, 2021. [4] Hangbo Bao, Li Dong, and Furu Wei. BEiT: BERT pre-training of image transformers. arXiv preprint arXiv:2106.08254, 2021.[5] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Syl- vain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16×16 words: Transformers for image recognition at scale. In ICLR, 2021. 

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/27246

(0)
上一篇 2021年11月17日 下午4:07
下一篇 2021年11月17日 下午5:33

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注