华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022

华为诺亚方舟实验室联合北大和悉大整理了业界第一篇视觉Transformer综述。

2021 年对计算机视觉来说是非常重要的一年,各个歇息的 SOTA 不断被刷新。这么多种 Vision Transformer 模型,到底该选哪一个?新手入坑该选哪个指标?华为诺亚方舟实验室的这一篇综述或许能给大家带来帮助。

华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022

综述论文链接:https://ieeexplore.ieee.org/document/9716741/

诺亚开源模型:https://github.com/huawei-noah

华为 A+M 社区:https://www.mindspore.cn/resources/hub

引言如何将 Transformer 利用于计算机视觉(CV)歇息,引起了越来越多研讨人员的兴趣。在过去很长一段时间内,CNN 成为视觉歇息中的主要模型架构,但如今 Transformer 呈现出巨大的潜力,有望在视觉规模中打败 CNN 的霸主地位。谷歌提出了 ViT 架构,首先将图象切块,然后用纯 Transformer 架构直接利用于图象块序列,就能完成对图象的分类,并在多个图象识别基准数据集上取得了优越的机能。除图象分类歇息之外,Transformer 还被用于解决其他视觉问题,包括指标检测(DETR),语义分割(SETR),图象处理(IPT)等等。由于其出色的机能,越来越多的研讨人员提出了鉴于 Transformer 的模型来改进各种视觉歇息。为了让大家对视觉 Transformer 在这两年的飞速发展有一个清晰的感受,图 1 展示了视觉 Transformer 的发展里程碑,从图象分类到指标检测,从图片天生到视频理解,视觉 Transformer 展现出了非常强的机能。

华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022

图 1 视觉 Transformer 的发展历程对于很多刚接触视觉 Transformer 的研讨员,看到这么多模型架构或许一时没有头绪,在面对具体利用需求的时候,也不知道选哪一个视觉 Transformer 架构。另外,想做视觉 Transformer 的同学也经常在问还有没有新指标可以挖掘。这些问题或多或少的都可以从这一篇涵盖了 200 多篇前沿论文的综述中找到答案:

按照视觉 Transformer 的设计和利用场景,本文对视觉 Transformer 模型进行了系统性的归类,如表 1 所示:骨干收集、高 / 中层视觉、下层视觉、多模态等,并且在每一章中针对歇息特点进行详细分析和对比;

本文针对高效的视觉 Transformer 进行了详细的分析,尤其是在标准数据集和硬件上进行了精度和速度的评测,并讨论了一些 Transformer 模型压缩和加速的格式;

华为是一家具有软硬件全栈 AI 解决方案的公司,鉴于 A+M 生态,在 Transformer 规模已经做出了很多有影响力的歇息,鉴于这些经验并且联合了业界知名学者一起进行了深入思考和讨论,给出了几个很有潜力的未来指标,供大家参考。

华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022

表 1 视觉 Transformer 代表性歇息附华为诺亚方舟实验室 Transformer 系列歇息:

NLP 大模型盘古 Alpha:https://arxiv.org/abs/2104.12369

中文预训练模型哪吒:https://arxiv.org/abs/1909.00204

轻量模型 TinyBERT:https://arxiv.org/abs/1909.10351

下层视觉 IPT:https://arxiv.org/abs/2012.00364

多模态 – 悟空:https://arxiv.org/abs/2111.07783

骨干收集架构 TNT:https://arxiv.org/abs/2103.00112

骨干收集视觉 Transformer 的所有组件,包括多头自注意力、多层感知机、残差连接、层归一化、位置编码和收集拓扑结构,在视觉识别中起着关键作用。为了提高视觉 transformer 的精度和效率,业界已经提出了许多模型。下表总结了视觉 Transformer 骨干收集的结果,可以更好分析现有收集的发展趋势。从图 2 中的结果可以看出,将 CNN 和 Transformer 结合起来可以获得更好的机能,这表明卷积的局部连接和注意力的全局连接能够相互补充。

华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022

表 2 代表性 CNN 和 Transformer 收集在 ImageNet 结果的对比。

华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022

图 2 代表性 CNN 和 Transformer 收集的 FLOPs / 吞吐量对比指标检测鉴于 Transformer 的指标检测格式也引起了广泛的兴趣,这些格式大致可以分为两类:鉴于 Transformer 的检测集合预测格式和鉴于 Transformer 骨干收集的检测格式。与鉴于 CNN 的检测器相比,鉴于 Transformer 的格式在准确性和运行速度方面都表现出了强大的机能。表 3 展示了在 COCO 数据集上鉴于 Transformer 的不同指标检测器的机能。将 Transformer 用于中高层视觉歇息,在输入 embedding、位置编码、损失函数以及整体架构设计等方面都有较多的探索空间。一些现有格式从不同角度改进自注意力模块,如变形注意力机制和自适应聚类。尽管如此,利用 Transformer 来解决中高层视觉歇息的探索仍处于初步阶段,需要整个业界进一步的研讨。例如,在 Transformer 之前是否有必要应用 CNN 或 PointNet 等特征提取模块以获得更好的机能?如何像 BERT 和 GPT-3 在 NLP 规模所做的那样,应用大规模的预训练数据充分利用 Transformer 的特性?如何通过结合特定歇息的先验知识来设计更强大的体系结构?之前的一些歇息已经对上述问题进行了初步讨论,期待有更多研讨来探索更强大的视觉 Transformer。除了指标检测,Transformer 还被利用于其他中高层视觉歇息,如图象分割、人体姿态估计、指标跟踪等,详细内容可参考原论文。

华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022

表 3 鉴于 Transformer 的指标检测器在 COCO2017 上的结果对比下层视觉下层视觉是计算机视觉规模的一个重要问题,如图象超分辨率和图象天生等,而目前也有一些歇息来研讨如何将 Transformer 利用于下层视觉中来。这些歇息通常将图象作为输出(高分辨率或去噪图象),这比分类、分割和检测等高层视觉歇息(输出是标签或框)更具挑战性。图 3 和图 4 展示了在下层视觉中应用 Transformer 的方式。在图象处理歇息中,首先将图象编码为一系列 token,Transformer 编码器应用该序列作为输入,进而用 Transformer 解码器天生所需图象。在图象天生歇息中,鉴于 GAN 的模型直接学习解码器天生的 token,通过线性映射输出图象,而鉴于 Transformer 的模型训练自编码器学习图象的码本,并应用自回归 Transformer 模型预测编码的 token。而一个有意义的未来研讨指标是为不同的图象处理歇息设计合适的收集架构。

华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022

图 3 鉴于 Transformer 的图象天生

华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022

图 4 鉴于 Transformer 的图象处理多模态许多研讨开始热衷于挖掘 Transformer 在处理多模态歇息(如视频 – 文本、图象 – 文本和音频 – 文本)的潜力。CLIP 是其中影响力较大的一个歇息, 其将自然语言作为监督信号,来学习更有效的图象表示。CLIP 应用大量文本图象对来联合训练文本编码器和图象编码器。CLIP 的文本编码器是一个标准的 Transformer,具有 mask 的自注意力层;对于图象编码器,CLIP 考虑了两种类型的架构:ResNet 和视觉 Transformer。CLIP 在一个新采集的数据集上进行训练,该数据集包含从互联网上收集的 4 亿对图象 – 文本对。CLIP 展示了惊人的零样本分类机能,在 ImageNet-1K 数据集上实现了 76.2% top-1 精度,而无需应用任何 ImageNet 训练标签。华为诺亚的悟空(英文名:FILIP)模型应用双塔架构构建图文表征,取得了更好的效果,如图 5 所示。总之,鉴于 transformer 的多模态模型在统一各种模态的数据和歇息方面显示出了其架构优势,这表明了 transformer 具备构建一个能够处理大量利用的通用智能代理的潜力。

华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022

图 5 FILIP 框架高效 Transformer尽管 Transformer 模型在各种歇息中取得了成功,但它们对内存和计算资源的高要求阻碍了它们在端侧设备(如手机)上的部署。文章还回顾了为高效部署而对 Transformer 模型进行压缩和加速的研讨,这包括收集剪枝、低秩分解、知识蒸馏、收集量化和紧凑结构设计。表 4 列出了一些压缩 Transformer 模型的代表性歇息,这些歇息采用不同的格式来识别 Transformer 模型中的冗余。具体来说,剪枝侧重于减少 Transformer 模型中组件(例如,层、头)的数量,而分解将原始矩阵表示为多个小矩阵。紧凑模型也可以直接手动(需要足够的专业知识)或自动(例如通过 NAS)设计来得到。

华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022

表 4 Transformer 压缩代表性歇息未来展望作为一篇综述论文,对所探究的规模未来指标的牵引也是非常重要的。本文的最后,也为大家提供了几个有潜力并且很重要的指标:

业界流行有各种类型的神经收集,如 CNN、RNN 和 Transformer。在 CV 规模,CNN 曾经是主流选择,但现在 Transformer 变得越来越流行。CNN 可以捕捉归纳偏置,如平移等变和局部性,而 ViT 应用大规模训练来超越归纳偏置。从现有的观察来看,CNN 在小数据集上表现良好,而 Transformer 在大数据集上表现更好。而在视觉歇息中,究竟是应用 CNN 还是 Transformer,或者兼二者之所长,是一个值得探究的问题。

大多数现有的视觉 Transformer 模型设计为只处理一项歇息,而许多 NLP 模型,如 GPT-3,已经演示了 Transformer 如何在一个模型中处理多项歇息。CV 规模的 IPT 能够处理多个下层视觉歇息,例如超分辨率、图象去雨和去噪。Perceiver 和 Perceiver IO 也是可以在多个规模歇息的 Transformer 模型,包括图象、音频、多模态和点云。将所有视觉歇息甚至其他歇息统一到一个 Transformer(即一个大统一模型)中是一个令人兴奋的课题。

另一个指标是开发高效的视觉 Transformer;具体来说,如果让 Transformer 具有更高精度和更低资源消耗。机能决定了该模型是否可以利用于现实世界的利用,而资源成本则影响其在硬件设备上的部署。而通常精度与资源消耗息息相关,因此确定如何在两者之间实现更好的平衡是未来研讨的一个有意义的课题。

通过应用大量数据进行训练,Transformer 可以在 NLP 和 CV 不同歇息上得到领先的机能。最后,文章还留下一个问题:Transformer 能否通过更简单的计算范式和大量数据训练获得令人满意的结果?

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/hua-wei-nuo-ya-diao-yan-200-duo-pian-wen-xian-shi-jue/

(0)
上一篇 2022年 2月 22日 下午3:21
下一篇 2022年 3月 1日 下午2:29

相关推荐

  • 为什么要纯C言语手搓GPT-2,Karpathy回应网友质疑

    Karpathy:for fun.几天前,前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上完成 GPT-2 训练的项目「llm.c」。llm.c 旨在让大模型(LM)训练变得简单 —— 使用纯 C 言语 / CUDA,不需求 245MB 的 PyTorch 或 107MB 的 cPython。例如,训练 GPT-2(CPU、fp32)仅需求单个文献中的大约 1000 行干净代码(clean

    2024年 4月 11日
  • 大模型、RISC-V、边缘计算,这场大咖云集的开发者盛会全日程公布(别忘了抽显卡)

    4 场 Keynote、9 场中心报告、线上「开发者十问」环节、2021 年云帆奖颁奖典礼,2021 世界人工智能大会(WAIC)AI 开发者论坛全日程公布。届时,来自学术界和产业界的 15 位嘉宾将以「后深度学习的 AI 时代」为中心与现场观众进行交流分享。

    2021年 6月 29日
  • 悉尼大学教授陶大程加入京东,出任京东试探研究院院长

    机器之心 3 月 9 日消息,人工智能和信息迷信规模国际知名学者、悉尼大学教授、澳大利亚迷信院院士陶大程已正式出任京东试探研究院 (JD Explore) 院长。

    2021年 3月 9日
  • 网传张益唐宣称解决黎曼猜测有关朗道-西格尔零点猜测,论文11月将公布

    张益唐曾表示:不要盲目崇拜权威,要敢于挑战传统。对那些别人说不可能做到的事,要勇于探索。如果真正热爱,就永不放弃。

    2022年 10月 16日
  • 亮道智能发布首款纯静态Flash激光雷达,解决侧向近距离感知需求

    5月13日,亮道智能正式发布自研纯静态Flash侧向激光雷达——LDSense Satellite。该雷达采用纯芯片化计划,具有超大笔直视场角、体积小巧灵活、高可靠性、长使用寿命等特点,官方称这是一款兼具性能与成本劣势的车规级激光雷达产品。LDSense Satellite面向具有挑战性的近距场景在日常驾驭过程中,驾驭员和车辆都需要时刻关注不同驾驭场景下的途径情况,基于眼睛或车辆传感器捕获的环境信息,做出相应的驾驭行为反应。然而,无论是驾驭员还是车辆传感装置,都存在一定的视野感知盲区。在TJ

    2022年 5月 13日
  • 地平线征程6正式发布:2024年开启量产,2025年交付超10款车型

    官宣10家首批量产合作车企,地平线征程6发布即爆款

    AI 2024年 4月 25日
  • Mistral AI新模型对标GPT-4,不开源且与微软分工,网友:忘了初心

    「欧洲版 OpenAI」的「最强开源大模型」,被微软收编了。生成式 AI 领域,又有重量级产品出现。周一晚间,Mistral AI 正式颁布了「旗舰级」大模型 Mistral Large。与此前的一系列模型不同,这次 Mistral AI 颁布的版本功能更强,体量更大,直接对标 OpenAI 的 GPT-4。而新模型的出现,也伴随着公司大方向的一次转型。随着 Mistral Large 上线,Mistral AI 推出了名为 Le Chat 的聊天助手(对标 ChatGPT),任何人都可以试试效果。试用链接:htt

    2024年 2月 27日
  • 动手画个二次元妻子,上科大团队这个APP刚上线就火出圈,网友:我学废了

    AI 虽然能帮你完成大多数工作,但作画也是需要一定技巧的。或者说它可以让你的所有想法暴露在光天化日之下。想给自己画个二次元妻子,但发现自己是个手残,怎么办?问题不大,这里有个神器,你只需要涂抹出轮廓,剩下的交给 AI:二次元妻子天生器的名字叫做「WAND」,现在已经在苹果应用商店上线了,目前提供 iPhone 和 iPad 两类设备的限时免费下载,登上了AppStore图形与设计榜下载量Top1。「WAND」刚发布就火出了圈,在社交搜集上看,很多人已经率先试用了,作品是这样的:画出了各种漂亮的小姐姐:嗯,三次元也可

    2021年 8月 12日
  • 从质料计划分解,到催化剂创新、碳中和,清华王笑楠团队探索「AI+质料」前沿与落地

    作者 | 清华大学王笑楠编辑 | 凯霞在当今科技飞速发展的时代,新质料的钻研与开发已成为推动迷信进步和工业革命的关键力量。从能源存储到信息技术,再到生物医药,创新质料的计划、分解及其功能表征是实现这些畛域突破的基石。随着人工智能(AI)技术的不断进步,其在新质料钻研中的集成利用已逐步开启一个全新的钻研范式,成为超越传统研发模式的新质生产力,特别是在质料的计划、分解和表征过程中,AI 的助力大大提高了钻研效率和精度。「17 岁上清华,27 岁做博导,30 岁回归清华,90 后科研女神,入选 2023 全球学者终身学术

    AI 2024年 4月 29日
  • 一块V100运转上千个智能体、数千个情况,这个「曲率引擎」框架实行RL百倍提速

    在加强进修研究中,一个实验就要跑数天或数周,有没有更快的方法?近日,来自 SalesForce 的研究者提出了一种名为 WarpDrive(曲率引擎)的开源框架,它可以在一个 V100 GPU 上并行运转、训练数千个加强进修情况和上千个智能体。实验结果表明,与 CPU+GPU 的 RL 实行相比,WarpDrive 靠一个 GPU 实行的 RL 要快几个数量级。

    2021年 9月 12日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注