当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT

本文中,来自清华大学、AWS AI 和北京智源人工智能钻研院的钻研者提出了一种新型可变形自注意力模块,其中以数据相关的方式选择自注意力中键值对的位置,使得自注意力模块能够专注于相关区域,并捕获更多信息特色。

Transformer 近来在各种视觉工作上表现出卓越的性能,感受野赋予 Transformer 比 CNN 更强的表征能力。然而,简单地扩大感受野会引起一些问题。一方面,使用密集注意力(例如 ViT)会导致过多的内存和计算成本,并且特色可能会受到超出兴趣区域的无关部分的影响;另一方面,PVT 或 Swin Transformer 中采用的稀疏注意力与数据无关,可能会限制对远程(long range)关系建模的能力。为了缓解这些问题,清华大学、AWS AI 和北京智源人工智能钻研院的钻研者提出了一种新型可变形自注意力模块,其中以数据相关的方式选择自注意力中键值对的位置。这种灵活的方案使自注意力模块能够专注于相关区域并捕获更多信息特色。在此基础上,该钻研提出了可变形注意力 Transformer(Deformable Attention Transformer,DAT),一种具有可变形注意力的通用骨干网络模型,适用于图象分类和密集预测工作。该钻研通过大量基准测试实考证明了该模型的性能提升。当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT论文地址:https://arxiv.org/abs/2201.00520v1可变形注意力 Transformer现有的分层视觉 Transformer,特别是 PVT 和 Swin Transformer 试图解决过多注意力的挑战。前者的下采样技术会导致严重的信息损失,而后者的 Swin 注意力导致感受野的增长要慢得多,这限制了对大型物体进行建模的潜力。因此,需要依赖于数据的稀疏注意力来灵活地对相关特色进行建模,从而导致首先在 DCN [9] 中提出可变形机制。然而,在 Transformer 模型中实现 DCN 是一个不简单的问题。在 DCN 中,特色图上的每个元素单独学习其偏移量,其中 H ×W ×C 特色图上的 3 × 3 可变形卷积具有 9 HWC 的空间复杂度。如果在注意力模块中直接应用相同的机制,空间复杂度将急剧上升到 N_qN_kC,其中 N_q、N_k 是查询和键的数量,通常与特色图大小 HW 具有相同的比例,带来近似于双二次的复杂度。尽管 Deformable DETR [54] 已经设法通过在每个尺度上设置较少数量的 N_k = 4 的键来减少这种开销,并且可以很好地作为检测头,但由于不可接受的信息丢失(参见附录中的详细比较),在骨干网络中关注如此少的键效果不佳。与此同时,[3,52] 中的观察表明,不同的查询在视觉注意力模型中具有相似的注意力图。因此,该钻研选择了一个更简单的解决方案,为每个查询共享移位键和值,以实现有效的权衡。模型架构该钻研在 Transformer(等式 (4))中的可变形注意力更换了 vanilla MHSA,并将其与 MLP(等式 (5))相结合,以构建一个可变形的视觉 transformer 块。在网络架构方面, DAT 与 [7, 26, 31, 36] 共享类似的金字塔结构,广泛适用于需要多尺度特色图的各种视觉工作。以下图 3 所示,形状为 H × W × 3 的输入图象首先被步长为 4 的 4 × 4 非重叠卷积嵌入,然后一个归一化层获得当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT补丁嵌入。当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT为了构建分层特色金字塔,骨干包括 4 个阶段,步幅逐渐增加。在两个连续的阶段之间,有一个步长为 2 的非重叠 2×2 卷积,对特色图进行下采样,将空间大小减半并将特色维度加倍。在分类工作中,该钻研首先对最后阶段输出的特色图进行归一化,然后采用具有池化特色的线性分类器来预测对数;在对象检测、实例支解和语义支解工作中,DAT 在集成视觉模型中扮演骨干的角色,以提取多尺度特色。该钻研为每个阶段的特色添加一个归一化层,然后将它们输入到以下模块中,例如对象检测中的 FPN [23] 或语义支解中的解码器。实验该钻研在 3 个数据集上进行了实验,以考证提出的 DAT 的有效性。该钻研展示了在 ImageNet-1K [10] 分类、COCO 目标检测和 ADE20K 语义支解工作上的结果。此外,该钻研提供了消融钻研和可视化结果,以进一步展示该方法的有效性。ImageNet-1K 分类ImageNet-1K [10] 数据集有 128 万张用于训练的图象和 5 万张用于考证的图象。钻研者在训练支解上训练 DAT 的三个变体,并报告考证支解上的 Top-1 准确度,并与其他 Vision Transformer 模型进行比较。该钻研在下表 2 中给出了有 300 个训练 epoch 的结果。与其他 SOTA 视觉 Transformer 模型相比, DAT 在具有相似计算复杂性的情况下在 Top-1 精度上实现了显著提高。DAT 在所有三个尺度上都优于 Swin Transformer [26]、PVT [36]、DPT [7] 和 DeiT [33]。没有在 Transformer 块 [13, 14, 35] 中插入卷积,或在补丁嵌入 [6, 11, 45] 中使用重叠卷积,DAT 比 Swin Transformer [26] 实现了 +0.7、+0.7 和 +0.5 的增益。在 384 × 384 分辨率下进行微调时,该模型继续比 Swin Transformer 性能好 0.3。

当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT

COCO 目标检测COCO 目标检测和实例支解数据集有 118K 的训练图象和 5K 的考证图象。该钻研使用 DAT 作为 RetinaNet [24]、Mask R-CNN [17] 和 Cascade Mask R-CNN [2] 框架中的骨干,以评估该方法的有效性。该钻研在 ImageNet-1K 数据集上对该模型进行 300 个 epoch 的预训练,并遵循 Swin Transformer [26] 中类似的训练策略来公平地比较该方法。该钻研在 1x 和 3x 训练计划中报告在 RetinaNet 模型上的 DAT。以下表 3 所示,在微型和小型模型中,DAT 的性能优于 Swin Transformer 1.1 和 1.2 mAP。当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT当在两阶段检测器(例如 Mask R-CNN、Cascade Mask R-CNN)中实现时,DAT 模型在不同尺寸的 Swin Transformer 模型上实现了一致的改进,以下表 4 所示。当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT下表 5 给出了在考证集上各种方法的 mIoU 分数。当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT消融实验为了考证 DAT 模型中关键组件设计的有效性, 该钻研进行了消融实验,报告了基于 DAT-T 的 ImageNet-1K 分类结果。对于几何信息开发,该钻研首先评估了所提可变形偏移和可变形相对位置嵌入的有效性,以下表 6 所示。当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT对于不同阶段的可变形注意力,该钻研用不同阶段的可变形注意力更换了 Swin Transfomer [26] 的移位窗口注意力。以下表 7 所示,仅更换最后阶段的注意力提高了 0.1,更换最后两个阶段导致性能增益为 0.7(达到 82.0 的整体准确度)。然而,在早期阶段用更多可变形注意力更换会略微降低准确性。当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT可视化该钻研在 DAT 中可视化学习变形位置的示例,以考证该方法的有效性。以下图 4 所示,采样点描绘在对象检测框和实例支解掩码的顶部,从中可以看到这些点已转移到目标对象。

当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/25830

(0)
上一篇 2022年2月8日 下午2:34
下一篇 2022年2月8日 下午2:43

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注