论文链接:https://arxiv.org/abs/2111.12527GitHub链接:https://github.com/MTLab/MorphMLP
引言
由于 Vision Transformer (ViT)[1] 的开创性工作,鉴于注意力的架构在各种盘算机视觉任务中显示出强大的能力,从图象域到视频域都取得了良好的效果。然而近期的研究表明,自注意力可能并不重要,因其可以被简单的多层感知器 (MLP) 取代,目前通过替代注意力框架的方法已经在图象域任务上开发了许多类似 MLP 的架构,且取得了可喜的成果。但在视频域该利用仍属空白,因此是否有可能设计一个通用的 MLP 视频域架构成为受到关注的新问题。美图影像研究院(MT Lab)联合新加坡国立大学 Show Lab 提出了一种 MLP 视频骨干收集,实现了在视频分类上的高效视频时空建模。该收集模型在空间上提出 MorphFC,在早期层关注局部细节,随着收集的加深,逐渐转变为对远程信息举行建模,从而克服了当前 CNN 和 MLP 模型只能举行局部或者全局建模的问题。在光阴上,该收集模型引入了光阴路径来捕捉视频中的长期光阴信息,将所有相同空间位置帧的像素举行连贯,并合并为一个块。同时,每一个块都会经过全连贯层处理得到一个新的块。鉴于空间和光阴上的建模,研究者们广泛探索了建立视频骨干的各种方法,最终按照串联的顺序依次对空间和光阴信息举行建模,并以高效的时空表示进修框架表示。该收集模型首次提出不借助卷积和自注意力机制,仅用全连贯层举行高效的视频时空建模的方法,对比之前的视频 CNN 和 Transformer 架构,该收集模型在提升精度的同时还降低了盘算量。此外,将此收集适配到图象域(图象分类分割),也取得了具有竞争力的结果。该论文目前已被国际会议 ECCV 2022 接收。背景介绍由于 MLP 模型尚未在视频领域举行利用,研究者们首先分析了在时空表示进修框架中使用 MLP 所面临的挑战。从空间角度上看,当前的 MLP 模型缺乏对语义细节的深刻理解。这主要是因为它们在空间中的所有令牌上全局操作 MLP,同时忽略了分层进修视觉表征(以下图 1 所示)。从光阴角度上看,进修视频中帧的长期依赖关系目前鉴于视频的 Transformers 来实现,但盘算光阴成本巨大。因此,如何有效地利用连贯层替换远程聚合的自注意力对节省盘算光阴至关重要。
图 1:特色可视化为了应对这些挑战,研究者们提出了一种高效的 MLP 视频表示进修架构,即MorpMLP,它由 MorphFCs 和 MorphFCt 两个关键层组成。研究者们沿着长和宽的方向逐渐扩大了感受野,使得 MorphFC 可以有效地捕捉空间中的核心语义(以下图 2 所示)。
图 2:操作概览这种渐进式的模式与现有的 MLP 模型设计相比,在空间建模方面带来了以下两个优势。首先,它可以通过从小到大的空间地区操作全连贯层,进修分层交互以发现判别性细节;其次,这种从小到大的地区建模可以有效减少用于空间建模的全连贯层的操作盘算量。此外,MorphFCt 可以自适应地捕捉对帧的时序远程依赖。研究者们将所有帧中每一个空间位置的特色连贯到一个光阴块中,通过这种方式,全连贯层可以有效地处理每一个光阴块,并对长期光阴依赖举行建模。最后,通过依次排列 MorphFC 和 MorphFCt 构建一个 MorphMLP 块,并将这些块堆叠到通用的 MorphMLP 骨干收集中举行视频建模。一方面,这种分层方式可以扩大 MorphFCs 和 MorphFCt 的协作能力,用以进修视频中复杂的时空交互;另一方面,这种多尺度和多维度的分解方法在准确性和效率之间取得了更好的平衡。MorphMLP 是首个为视频领域构建的高效 MLP 架构,与此前最先进的视频模型相比,该模型显著减少了盘算量且精度更高。MorphMLP 的时空建模模型空间建模如上所述,挖掘核心语义对于视频识别至关重要。典型的 CNN 和以前的 MLP-Like 架构只关注局部或全局信息建模,因此它们无法做到这一点。为了应对这一挑战,研究者们提出了一种新颖的 MorphFC 层,它可以分层扩展全连贯层的感受野,使其从小地区到大地区运行,按水平和笔直方向独立地处理每一帧。以水平方向处理为例(以下图 3 中蓝色块部分),给定某一帧,首先沿水平方向拆分该帧形成块,并将每一个块沿通道维度分成多个组,以降低盘算成本。接下来,将每一个组展平为一维向量,并利用全连贯层来举行特色转换。特色转换完成后,重塑所有组回到该帧原来的维度,笔直方向处理方式相同(如图 3 中绿色块部分)。除了沿水平和笔直方向拆分,还利用了一个全连贯层来单独处理每一个空间位置,以保证组与组之间能够沿着通道维度举行通信。最后,再将水平、笔直和通道特色相加。随着收集的加深,块长度分层增加,从而使得全连贯层能够从小空间地区到大空间地区逐步发现更多核心语义。
图 3:空间建模光阴建模除了水平和笔直通路外,研究者们还引入了另一个光阴通路,旨在使用简单的全连贯层以低盘算成本捕捉长期光阴信息。具体而言,给定输入视频后,先沿通道维度分成几个组以降低盘算成本,再将每一个空间位置中所有帧的特色连贯成一个块,接着利用全连贯层来转换光阴特色,最后将所有块重塑回原始维度。通过这种方式,全连贯层可以简单地聚合块中沿光阴维度的依赖关系,以对光阴举行建模(以下图 4 中橙色块部分)。
图 4:空间建模时空建模将光阴和空间的全连贯层串联在一起,以实现更稳定的时空优化收敛并降低盘算复杂度,最终构建完成利用全连贯层提取视频特色的骨干收集,具体以下图 5 所示。在此基础上,只需简单地丢弃光阴维度就可以完成到图象域的适配。
图 5:收集架构结果
表 1:在 k400 数据集上的准确率和盘算量表现
表 2:在 Something-Something 数据集上的准确率和盘算量表现
表 3:图象领域适配在 ImageNet 上的准确率和盘算量表现
表 4:图象分割表现总结在本文中,研究者们提出了一种用于视频表示进修的无自注意力、类似 MLP 的骨干收集 MorphMLP。该方法能够逐步发现核心语义并捕捉长期光阴信息,这也是第一个在视频领域利用 MLP 架构的骨干收集。实验表明,这种无自注意力模型可以与鉴于自注意力的架构一样强大,甚至优于鉴于自注意力的架构。引用文献[1] Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., Houlsby, N.: An image is worth 16×16 words: Transformers for image recognition at scale. In: International Conference on Learning Representations (2021)
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/29117