无需训练,主动扩大的视觉Transformer来了

来自德克萨斯大学奥斯汀分校、悉尼科技大学和谷歌的研讨者提出了一个无需训练就能主动扩大框架 As-ViT,其能以高效和有原则的方式主动发现和扩大 ViT。

当前 Vision Transformers (ViT)领域有两个主要的痛点:1、缺少对 ViT 举行计划和扩大的有效方法;2、训练 ViT 的计算成本比卷积搜集要大得多。

为了解决这两个问题,来自得克萨斯大学奥斯汀分校、悉尼科技大学和谷歌的研讨者提出了 As-ViT(Auto-scaling Vision Transformers),这是一个无需训练的 ViT 主动扩大框架,它能以高效且有原则的方式主动计划和扩大 ViT。

图片

论文链接:https://arxiv.org/abs/2202.11921

具体来说,研讨人员首先利用无训练搜寻过程计划了 ViT 拓扑的「种子」,这种极快的搜寻是通过对 ViT 搜集复杂性的全面研讨来实现的,从而产生了与真实准确度的强 Kendall-tau 相关性。其次,从「种子」拓扑开始,通过将宽度 / 深度增加到分歧的 ViT 层来主动化 ViT 的扩大规则,实现了在一次运行中具有分歧数量参数的一系列架构。最后,鉴于 ViT 在早期训练阶段可以容忍粗粒度 tokenization 的经验,该研讨提出了一种渐进式 tokenization 方略来更快、更节约地训练 ViT。

作为统一的框架,As-ViT 在分类(ImageNet-1k 上 83.5% 的 top1)和检测(COCO 上 52.7% 的 mAP)任务上实现了强大的本能,无需任何手动调整或扩大 ViT 架构,端到端模型计划和扩大过程在一块 V100 GPU 上只需 12 小时。

具有搜集复杂度的 ViT 主动计划和扩大

为加快 ViT 计划并避免繁琐的手动工作,该研讨希望以高效、主动化和有原则的 ViT 搜寻和扩大为目标。具体来说有两个问题需要解决:1)在训练成本最小甚至为零的情况下,如何高效地找到最优的 ViT 架构拓扑?2)如何扩大 ViT 拓扑的深度和宽度以满足模型尺寸的分歧需求?

扩大 ViT 的拓扑空间

在计划和扩大之前,首先是为 As-ViT 扩大的拓扑搜寻空间:首先将输入图像嵌入到 1/4 尺度分辨率的块中,并采用逐级空间缩减和通道加倍方略。这是为了方便密集预测任务,例如需要多尺度特征的检测。

图片

通过流形传播评估初始化时的 ViT 复杂性

ViT 训练速度很慢,因此,通过评估训练模型的准确率来举行架构搜寻的成本将高得让人难以承受。最近学界出现很多用鉴于 ReLU 的 CNN 的免训练神经架构搜寻方法,利用局部线性图 (Mellor et al., 2020)、梯度敏感性 (Abdelfattah et al., 2021)、线性区域数量 (Chen et al., 2021e;f) 或搜集拓扑(Bhardwaj et al., 2021)等方式。

然而 ViT 配备了更复杂的非线性函数如 self-attention、softmax 和 GeLU。因此需要以更一般的方式衡量其学习能力。在新研讨中,研讨者考虑通过 ViT 测量流形传播的复杂性,以估计复杂函数可以如何被 ViT 逼近。直观地说,一个复杂的搜集可以在其输出层将一个简单的输入传播到一个复杂的流形中,因此可能具有很强的学习能力。在 UT Austin 的工作中,他们通过 ViT 映射简单圆输入的多种复杂性:h(θ) = √ N [u^0 cos(θ) + u^1 sin(θ)]。这里,N 是 ViT 输入的维度(例如,对于 ImageNet 图像,N = 3 × 224 × 224),u^0 和 u^1 形成了圆所在的 R^N 的二维子空间的标准正交基。

搜寻 ViT 拓扑奖励

研讨者提出了鉴于 L^E 的免训练搜寻(算法 1),大多数 NAS(神经架构搜寻)方法将单路径或超级搜集的准确率或损失值评估为代理推理。当应用于 ViT 时,这种鉴于训练的搜寻将需要更多的计算成本。对于采样的每个架构,这里不是训练 ViT,而是计算 L^E 并将其视为指导搜寻过程的奖励。

除了 L^E,还包括 NTK 条件数 κΘ = λ_max/λ_min ,以指示 ViT 的可训练性(Chen et al., 2021e; Xiao et al., 2019; Yang, 2020; Hron et al., 2020)。λ_max 和 λ_min 是 NTK 矩阵 Θ 的最大和最小特征值。

图片

搜寻使用强化学习方法,方略被定为联合分类分布,并通过方略梯度举行更新,该研讨将方略更新为 500 step,观察到足以使方略收敛(熵从 15.3 下降到 5.7)。搜寻过程非常快:在 ImageNet-1k 数据集上只有七个 GPU 小时 (V100),这要归功于绕过 ViT 训练的 L^E 的简单计算。为了解决 L^E 和 κΘ 的分歧大小,该研讨通过它们的相对值范围对它们举行归一化(算法 1 中的第 5 行)。

表 3 总结了新搜寻方法的 ViT 拓扑统计数据。我们可以看到 L^E 和 κΘ 高度偏好:(1)具有重叠的 token (K_1∼K_4 都大于 stride ),以及(2)在更深层中更大的 FFN 扩大率(E_1 < E_2 < E_3 < E_4)。在注意力分裂和正面数量上没有发现 L^E 和 κΘ 的明显偏好。

图片

ViT 自主的原则型扩大

得到最优拓扑后,接下来要解决的一个问题是:如何平衡搜集的深度和宽度?

目前,对于 ViT 扩大没有这样的经验法则。最近的工作试图扩大或增长分歧大小的卷积搜集以满足各种资源限制(Liu et al., 2019a; Tan & Le, 2019)。然而,为了主动找到一个有原则的扩大规则,训练 ViT 将花费巨大的计算成本。也可以搜寻分歧的 ViT 变体(如第 3.3 节中所述),但这需要多次运行。相反,「向上扩大,scaling-up」是在一个实验中生成多个模型变体的更自然的方式。因此,该研讨试图以一种免训练且有原则的有效方法将搜寻到的基本「种子」ViT 扩大到更大的模型。算法 2 中描述了这种主动扩大方法:

图片

初始架构的每个阶段都有一个注意力块,初始隐藏维度 C = 32。每次迭代找出最佳深度和宽度,以举行进一步向上扩大。对于深度,该研讨尝试找出要加深哪个阶段(即,在哪个阶段添加一个注意力块);对于宽度,该研讨尝试发现最佳扩大比(即,将通道数扩大到什么程度)。

图片

扩大轨迹如下图 3 所示。比较自主扩大和随机扩大,研讨者发现扩大原则更喜欢舍弃深度来换取更多宽度,使用更浅但更宽的搜集。这种扩大更类似于 Zhai et al. (2021) 开发的规则。相比之下,ResNet 和 Swin Transformer (Liu et al., 2021) 选择更窄更深。

图片

通过渐进灵活的 re-tokenization 举行高效的 ViT 训练

该研讨通过提出渐进灵活的 re-tokenization 训练方略来提供肯定的答案。为了在训练期间更新 token 的数量而不影响线性投影中权重的形状,该研讨在第一个线性投影层中采用分歧的采样粒度。以第一个投影核 K_1 = 4 且 stride = 4 为例:训练时研讨者逐渐将第一个投影核的 (stride, dilation) 对逐渐变为 (16, 5), (8, 2) 和 (4 , 1),保持权重的形状和架构不变。

这种 re-tokenization 的方略激发了 ViT 的课程学习(curriculum learning):训练开始时引入粗采样以显着减少 token 的数量。换句话说,As-ViT 在早期训练阶段以极低的计算成本(仅全分辨率训练的 13.2% FLOPs)快速从图像中学习粗略信息。在训练的后期阶段,该研讨逐渐切换到细粒度采样,恢复完整的 token 分辨率,并保持有竞争力的准确率。如图 4 所示,当在早期训练阶段使用粗采样训练 ViT 时,它仍然可以获得很高的准确率,同时需要极低的计算成本。分歧采样粒度之间的转换引入了本能的跳跃,最终搜集恢复了具有竞争力的最终本能。

图片

如图 4 所示,当 ViT 在早期训练阶段使用粗采样训练 ViT 时,它仍然可以获得很高的准确率,同时需要极低的计算成本。分歧采样粒度之间的转换引入了本能的跳跃,最终搜集恢复了具有竞争力的最终本能。

实验

AS-VIT:主动扩大 VIT

该研讨在表 4 中展示了搜寻到的 As-ViT 拓扑。这种架构在第一个投影(tokenization)step 和三个重新嵌入 step 中,促进了 token 之间的强烈重叠。FFN 扩大比首先变窄,然后在更深的层变宽。利用少量注意力拆分来更好地聚合全局信息。

图片

图像分类

下表 5 展示了 As-ViT 与其他模型的比较。与之前鉴于 Transformer 和鉴于 CNN 的架构相比,As-ViT 以相当数量的参数和 FLOP 实现了 SOTA 本能。

图片

图片

图片

高效训练

研讨者调整了表 6 中为每个 token 减少阶段的时期,并将结果显示在表 6 中。标准训练需要 42.8 TPU 天,而高效训练可节省高达 56.2% 的训练 FLOP 和 41.1% 的训练 TPU 天,仍然达到很高的准确率。

图片

拓扑和扩大的贡献

为了更好地验证搜寻型拓扑和扩大规则的贡献,该研讨举行了更多的消融研讨(表 7)。首先,在扩大之前直接训练搜寻到的拓扑。该研讨搜寻的种子拓扑优于图 2 中 87 个随机拓扑中的最佳拓扑。

图片

第二,该研讨将鉴于复杂度的规则与「随机扩大 + As-ViT 拓扑」举行比较。在分歧的扩大下,该研讨的主动扩大也优于随机扩大。

图片

COCO 数据集上的目标检测

该研讨将 As-ViT 与标准 CNN 和之前的 Transformer 搜集举行了比较。比较是通过仅更改主干而其他设置未更改来举行的。从下表 8 的结果可以看出,As-ViT 也可以捕获多尺度特征并实现最先进的检测本能,尽管它是在 ImageNet 上计划的,并且它的复杂性是为分类而测量的。

图片

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/wu-xu-xun-lian-zhu-dong-kuo-da-de-shi-jue-transformer-lai-le/

(0)
上一篇 2022年 4月 10日 下午12:45
下一篇 2022年 4月 11日 上午11:06

相关推荐

  • 为主动驾驭汽车创造「影象」,上交校友、康奈尔大学博士生两篇论文被CVPR 2022收录

    人经常走一条路能走熟,主动驾驭汽车也应该能。

    2022年 7月 14日
  • ICLR 2022 | 鉴于心智理论的多智能体通讯与分工

    本文是 ICLR 2022入选论文《ToM2C: Target-oriented Multi-agent Communication and Cooperation with Theory of Mind》的解读。该论文由北京大学王亦洲课题组完成。文章提出了一种鉴于心智理论的多智能体通讯与分工方法。每一个智能体鉴于对他人心理状态的推想独立地抉择通讯对象和个体行动,进而实现分布式的分工。试验表明该方法提高了多智能体分工的成功率,大幅降低了通讯价钱,并且具有良好的泛化性能。

    2022年 7月 18日
  • 用深度进修解决游览推销员成绩,研究者走到哪一步了?

    最近,针对游览推销员等拉拢优化成绩开发神经网络驱动的求解器引起了学术界的极大兴趣。这篇博文介绍了一个神经拉拢优化步骤,将几个最近提出的模型架构和进修范式统一到一个框架中。透过这一系列步骤,作者分析了深度进修在路由成绩方面的最新进展,并提供了新的方向来启发今后的研究,以创造实际的价值。

    2022年 4月 6日
  • 用消息传递求解偏微分方程,ML大牛Max Welling等用全神经求解器做到了更强、更快

    对于求解偏微分方程来说,阿姆斯特丹大学、高通 AI 研究院的研究者最近推出的 MP-PDE 求解器又提供了一个选择。

    2022年 2月 20日
  • 可对药物份子举行表征的若干深度进修

    编辑 | 萝卜皮若干深度进修(GDL)基于包罗和处理对称信息的神经网络架构。GDL 为依赖于具有不同对称性和抽象级别的份子体现的份子建模利用程序带来了希望。苏黎世联邦理工学院的研讨人员对份子 GDL 举行了结构化和统一概述,重点介绍了其在药物发现、化学合成猜测和量子化学中的利用。它包罗对 GDL 原理的介绍,以及相关的份子体现,例如份子图、网格、曲面和字符串,以及它们各自的属性。讨论了份子科学中 GDL 当前面临的挑战,并尝试猜测未来的机会。该综述以「Geometric deep learning on molec

    2021年 12月 27日
  • AnchorDx通过鉴于深度进修的连续向量默示甲基化地区

    编辑 | 萝卜皮基准调理(AnchorDx)成立于 2015 年,是一家国内领先的采用甲基化高通量测序进行癌症早筛早诊产物开发的公司。创始人范建兵博士是基因检测畛域的国内领军人物,拥有近 30 年从事人类基因组学、基因芯片(Microarrays)及高通量测序技术开发的经验。基准调理是中国首家将 ctDNA 甲基化高通量测序技术用于肿瘤早诊的企业,并自立构建了全球最大的中国人群癌症初期甲基化数据库。自创立以来,基准调理一直致力于自立开发真正具备临床价值的单癌种、多癌种乃至泛癌种早筛早诊产物,产物管线覆盖了包括肺癌、

    2021年 12月 30日
  • 百分点数据科学实验室:产物生命周期料理创新应用落地实践

    编者按产物生命周期料理在数字经济发展过程中是必不可少的,在零售快消行业可用来指导产物的以销定采和精准投放,在IT行业可辅佐软件应用等产物的开发进程料理,同时还也会对环境料理产生影响,对建筑业在节能减排、减轻环境污染层面起到辅佐作用。因此,及时把控产物生命周期进程,用数据智能技术赋能料理至关重要。百分点数据科学实验室鉴于产物生命周期理论在多个行业的落地实践,总结了如何准确把握产物生命周期的四个阶段及辨别方法论。众所周知,一种产物在商场上的销售情况和获利能力并非是一成不变的,因此,任何一家企业的产物不可能永远畅销,但企

    2021年 3月 25日
  • 产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021

    ICASSP 2021将于2021年6月6日-11日在加拿大多伦多拉开序幕,凭借在语音技术领域的扎实积累和前沿创新,京东科技集团的3篇论文已经被 ICASSP 2021接收。

    2021年 8月 25日
  • “智能定损”应用现状介绍

    在车险理赔行业,智能定损的概念在2017年率先提出,经历了4年的发展,深源恒际首次将图像鉴别技术通过小顺序在【客户自决】定损场景的产物落地应用,在某产险公司日均处理案件量达1000+,准确率达到85%。

    2022年 1月 11日
  • 一半功耗,六倍算力提升:墨芯联手海潮开拓希罕化较量争论生态

    机器之心发布机器之心编辑部6 月 13 日,墨芯人工智能与海潮签订元脑计谋合作协议。这是在海潮计谋投资墨芯之后,双方的进一步计谋合作。墨芯将携手海潮信息,以超过的希罕化较量争论技术和产品,广阔的生态潜能,融合资源与算法,共创全栈 AI 解决方案,为各行各业 AI 使用供给强大算力引擎和生态支撑,为企业降本增效,并加速产业的人工智能化进程。AI 较量争论的新锐势力——希罕化较量争论墨芯人工智能科技创立于 2018 年,总部位于深圳,致力于通过希罕化算法构建高性能低 TCO(总拥有本钱)的 AI 算力,其产品主要是用于云端和终端的

    2022年 6月 13日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注