mask-and-predict 的要领可能会成为计算机视觉领域的新流派。自监视预训练在自然语言处理方面取得了惊人的成功,其基本思路中包含着掩码猜测义务。前段时间,何恺明一作的论文《Masked Autoencoders Are Scalable Vision Learners》提出了一种简单实用的自监视学习方案 MAE,将 NLP 领域的掩码猜测(mask-and-predict)要领用在了视觉问题上。现在来自 Facebook AI 钻研院(FAIR)的钻研团队又提出了一种自监视视觉预训练新要领 MaskFeat。
论文地址:https://arxiv.org/pdf/2112.09133.pdfMaskFeat 首先随机掩码一部分输入序列,然后猜测被掩码区域的特点。通过钻研 5 种不同类型的特点,钻研者发现方向梯度直方图 (HOG) 是一种很好的特点描述要领,在功能和效率方面都表现优异。并且钻研者还观察到 HOG 中的局部对比归一化对于获得良好结果至关重要,这与之前使用 HOG 举行视觉辨别的工作一致。该要领可以学习丰富的视觉知识并驱动基于 Transformer 的大规模模型。在不使用额外的模型权重和监视的情况下,MaskFeat 在未标记的视频上举行预训练,使用 MViT-L 在 Kinetics-400 上实现了前所未有的 86.7% top-1 准确率。此外,MaskFeat 还能进一步推广到图象输入,并在 ImageNet 上获得了有竞争力的结果。要领掩码视觉猜测义务旨在修复被掩码的视觉内容。通过建模掩码样本,该模型从辨别物体的部位和运动的意义上实现了视频理解。例如,要补全下图中的图象,模型必须首先根据可见区域辨别对象,还要知道对象通常的形态和移动方式,以修复缺失区域。
该义务的一个关键组成部分是猜测标的。在自然语言处理义务中,掩码语言建模使用词表 tokenize 语料库作为标的。而在视觉领域,原始视觉信号是连续的、高维的,并且没有可用的自然「词表」。因此,MaskFeat 提出将猜测被掩码区域的特点。借助从原始完整样本中提取的特点举行监视。标的特点的选择在很大程度上影响了预训练模型的属性,该钻研对特点举行了广泛的解释,并主要考虑了 5 种不同类型的标的特点。
首先钻研者将标的特点分为两组:1) 可以直接获得的单阶段标的,包括像素颜色和 HOG;2) 由经过训练的深度网络提取的两阶段标的。由于猜测两阶段标的是借助训练有素的深度网络有效学得的(类似于模型蒸馏),因此教师模型的预训练和推理的额外计算成本是不可避免的。该钻研主要探究的 5 种特点类型是:
像素颜色;
方向梯度直方图(HOG);
离散变分自编码器(dVAE);
深度特点;
伪标签。
该钻研通过了一系列的分析探究了这 5 种特点的利弊。尽管掩码语言建模最初是在预定义词表上猜测分类分布,但 BEiT 中的离散化不需要视觉信息。分析结果表明,连续的无监视特点和图象描述符是功能较好的猜测标的,其中前者需要模型蒸馏,后者则不需要额外的计算开销。
此外,钻研者还发现监视训练的标的特点会产生较差的结果,这可能与存在于特点中的类级特定信息有关,即这种要领对于局部掩码建模来说过于全局化。总的来说,考虑功能和计算成本之间的权衡,该钻研最终选择了 HOG 作为 MaskFeat 的默认特点。方向梯度直方图(HOG)特点是一种在计算机视觉和图象处理中用来举行物体检测的特点描述要领,最早是在 CVPR 2005 的一篇论文《Histograms of Oriented Gradients for Human Detection》中提出的。
HOG 特点提取的过程如下:首先把样本图象分割为若干个像素单位,把梯度方向平均划分为多个区间,在每个单位里面对所有像素的梯度方向在各个方向区间举行直方图统计,得到一个多维的特点向量,每相邻的单位构成一个区间,把一个区间内的特点向量联起来得到多维的特点向量,用区间对样本图象举行扫描,扫描步长为一个单位。最后将所有块的特点串联起来,就得到了完整的特点。基于视频辨别的实验该钻研在 K400 数据集上将 MaskFeat 和之前的工作举行了比较,结果如下表 3 所示,使用 MaskFeat 的 MViT-L 在 Kinetics-400 上实现了新的 SOTA——86.7% top-1 准确率。
迁移学习为了评估该要领在下游义务上的迁移学习功能,该钻研在 AVA v2.2 上微调了 MViT-L↑312,40×3 Kinetics 模型,实验结果如上表 3 和下表 4 所示,在 K600 上实现了 88.3% top-1 准确率,K700 上为 80.4%,均实现了新的 SOTA。
该钻研在 AVA v2.2 上微调了 MViT-L↑312,40×3 Kinetics 模型,下表 5 给出了 MaskFeat 模型与现有要领相比的平均精度 (mAP)。MaskFeat 在全分辨率测试中达到了前所未有的 38.8 mAP,大大超过了以前所有要领。
感兴趣的读者可以阅读论文原文了解更多钻研细节。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/29563