CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer

来自华为诺亚方舟实验室、北京大学、悉尼大学的研究者提出了一种受量子力学启发的视觉 MLP 新架构。

近年来,计算机视觉领域的新型架构层出不穷,包括视觉 Transformer、MLP 等,它们在很多任务上都取得了超越 CNN 的机能,受到广泛关注。其中,视觉 MLP 具有极其简单的架构,它仅由多层感知器(MLP)重叠而成。与 CNN 和 Transformer 相比,这些简洁的 MLP 架构引入了更少的归纳偏置,具有更强的泛化机能。然而,现有视觉 MLP 架构的机能依然弱于 CNN 和 Transformer。来自华为诺亚方舟实验室、北京大学、悉尼大学的研究者提出了一种受量子力学启发的视觉 MLP 架构,在 ImageNet 分类、COCO 检测、ADE20K 肢解等多个任务上取得了 SOTA 机能。

CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer

论文地址:https://arxiv.org/abs/2111.12294PyTorch 代码:https://github.com/huawei-noah/CV-Backbones/tree/master/wavemlp_pytorchMindSpore 代码:https://gitee.com/mindspore/models/tree/master/research/cv/wave_mlpWave-MLP

该研究受量子力学中波粒二象性的启发,将 MLP 中每一个图象块 (Token) 示意成波函数的形式,从而提出了一个新型的视觉 MLP 架构——Wave-MLP,在机能上大幅超越了现有 MLP 架构以及 Transformer。

量子力学是描述微观粒子运动规律的物理学分支,经典力学可被视为量子力学的特例。量子力学的一个基本属性是波粒二象性,即所有的个体(比如电子、光子、原子等)都可以同时使用粒子的术语和波的术语来描述。一个波通常包括幅值和相位两个属性,幅值示意一个波可能达到的最大强度,相位指示着当前处在一个周期的哪个位置。将一个经典意义上的粒子用波(比如,德布罗意波)的形式来示意,可以更完备地描述微观粒子的运动状态。

那么,对于视觉 MLP 中的图象块,能不能也把它示意成波的形式呢?该研究用幅值表达每一个 Token 所包括的实际信息,用相位来示意这个 Token 当前所处的状态。在聚集分别 Token 信息的时候,分别 Token 之间的相位差会调制它们之间的聚拢过程(如图 3 示)。考虑到来自分别输入图象的 Token 包括分别的语义内容,该研究使用一个简单的全连接模块来动态估计每一个 Token 的相位。对于同时带有幅度和相位信息的 Token,作者提出了一个相位感知 Token 混合模块(PATM,如下图 1 所示)来聚拢它们的信息。交替重叠 PATM 模块和 MLP 模块构成了整个 Wave-MLP 架构。

CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer

图 1:Wave-MLP 架构中的一个单元相比现有的视觉 Transformer 和 MLP 架构,Wave-MLP 有着明显的机能优势(如下图 2 所示)。在 ImageNet,Wave-MLP-S 模型上以 4.5G FLOPs 实现了 82.6% 的 top-1 准确率,比相似计算代价的 Swin-T 高 1.3 个点。此外,Wave-MLP 也可以推广到目标检测和语义肢解等下游任务,展现出强大的泛化机能。

CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer

图 2:Wave-MLP 与现有视觉 Transformer、MLP 架构的比较用波示意 Token在 Wave-MLP 中,Token 被示意为同时具有幅值和相位信息的波CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer, 

CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer    (1)

其中 i 是满足 i^2 = -1 的虚数单位,|·| 示意绝对值运算,⊙是逐元素乘法。幅值 |z_j| 是实值的特征,示意每一个 Token 所包括的内容。θ_j 示意相位,即 Token 在一个波周期内的当前位置。两个 Token 之间的相位差对它们的聚拢过程有很大影响 (如下图 3 所示)。当两个 token 具有相同的相位时,它们会相互增强,得到幅值更大的波(图 3(b));当两个 token 相位相反时,他们合成的波将相互减弱。在其他情况下,它们之间的相互作用更加复杂,但仍取决于相位差(图 3(a))。经典方法中使用实值示意 token 的,这实际上是上式的一个特例。

CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer

图 3:两个具有分别相位的波的聚拢过程。左侧示意两个波在单数域中的叠加,右侧示意它们在实轴上的投影随着相位的变化。虚线示意两个初始相位分别的波,实线是他们的叠加。相位感知的 Token 聚拢公式(1)中包括幅值和相位两项,幅值 z_j 类似于实值特征,可以采用标准的 Channel-FC 生成:

CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer    (2)

对于相位,可以使用多种方式来估计。为了使得相位可以捕获每一个输入的特定属性,该研究使用一个可学的估计模块来生成相位 θ_j。在获得幅值 z_j 和相位 θ_j 之后,可以根据公式(1)得到 Token 的波函数示意CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer。同时,公式(1)可以采用欧拉公式展开成连个实值向量拼接的形式:

CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer    (3)

示意分别的 Token 波函数会通过一个 Token-FC 聚拢起来,得到单数域的输出:

CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer    (4)

类似于量子计算中的测量过程,单数域的需要映射到实数域里才能得到有意义的输出值。将实部和虚部做按照一定的权重进行求和,得到模块的输出:

CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer    (5)

在视觉 MLP 中,该研究构建了一个相位感知模块(PATM,图 1)来完成 Token 聚拢的过程。交替重叠 PATM 模块和 channel-mixing MLP 组建了整个 WaveMLP 架构。实验结果该研究在大规模的分类数据集 ImageNet, 目标检测数据集 COCO 和语义肢解数据集 ADE20K 上都进行了大量实验。ImageNet 上图象分类的结果如表 1,表 2 所示:相比于现有的 Vision MLP 架构和 Transformer 架构,WaveMLP 都取得了明显的机能优势。

CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer

CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer

在下游目标检测、语义肢解等任务中,Wave-MLP 同样表现出更优的机能。

CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer

CVPR 2022 | 图象也是德布罗意波!华为诺亚&北大提出量子启发MLP,机能超越Swin Transfomer

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/cvpr2022-tu-xiang-ye-shi-de-bu-luo-yi-bo-hua-wei-nuo-ya-bei/

(0)
上一篇 2022年 3月 15日 下午4:10
下一篇 2022年 3月 20日 下午12:51

相关推荐

  • 经济学家看「数据」,何谓数据财产时代?

    「数据是一切的起点,华夏又是数据大国,这使得数据运作在华夏变得非常重要。」在昨日举行的2021BAAI智源大会首日全体大会上,清华大学国家金融研究院院长朱民发表了题为《数据财产时代》的主题演讲,剖析了数据的经济学属性和财产特性,阐释了数据财产化的意义和必要性,解读了数据财产化转型将面临的挑战和应对策略。本文整理了朱民博士演讲的部分内容,并在文末附有相关演讲资料。整理报道 | 齐健数据在今天的社会中无处不在,随着数据范围的扩大,数据利用的加深,人们开始愈发重视数据的经济学特征。数据的虚拟特性,使其可重复利用,且转移成

    2021年 6月 2日
  • 百分点数据科学实验室:产物生命周期料理创新应用落地实践

    编者按产物生命周期料理在数字经济发展过程中是必不可少的,在零售快消行业可用来指导产物的以销定采和精准投放,在IT行业可辅佐软件应用等产物的开发进程料理,同时还也会对环境料理产生影响,对建筑业在节能减排、减轻环境污染层面起到辅佐作用。因此,及时把控产物生命周期进程,用数据智能技术赋能料理至关重要。百分点数据科学实验室鉴于产物生命周期理论在多个行业的落地实践,总结了如何准确把握产物生命周期的四个阶段及辨别方法论。众所周知,一种产物在商场上的销售情况和获利能力并非是一成不变的,因此,任何一家企业的产物不可能永远畅销,但企

    2021年 3月 25日
  • 使用谷歌Colab Notebooks,这6个小技巧你需要掌握

    切换暗黑形式、读取 CSV 文献… 这些非常实用的小技巧为开发者使用谷歌 Colab Notebooks 提供了便利。Google Colab 给广大的 AI 爱好者和开发者提供了免费的 GPU,他们可以在上面轻松地跑 Tensorflow、PyTorch 等深度学习框架。特别地,Colab 实时 Notebooks 在数据同享方面为广大开发者提供了便利,通过链接即可与其他的开发者同享文献。在本文中,数据科学家 Iden W. 为读者详细地介绍了使用 Google Colab Notebooks 的小

    2021年 2月 1日
  • 这个夏天,跟陈天奇学「呆板进修编译」中英文课程,6月17日开课!

    陈天奇:「因为世界上还没有关于这个方位的体系性课程,所以这一次尝试应该会是和小伙伴们共同的探索」。随着呆板进修框架和硬件需求的发展,呆板进修 / 深度进修编译正成为一个越来越受关注的话题。在去年 12 月的一篇文章中,TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陈天奇探讨了「新一代深度进修编译技术的变革和展望」。他指出,现在深度进修编译生态正围绕四类笼统展开:估计图体现、张量步调体现、算子库和运行情况、硬件专用指令。不过,由于篇幅受限,陈天奇并未就这一话题展开体系、详细的讨论,

    2022年 6月 4日
  • 巴黎出生、加拿大求学,Yoshua Bengio刚刚拿到了法国声誉军团骑士勋章

    Bengio 表示,「法国是我出生和成长的地方,我很高兴能在蒙特利尔接受这枚来自法国的勋章。」

    2022年 3月 8日
  • 香港中文大学薛天帆老师招收全奖博士生、硕士生 | 2023夏季

    新的一期招生正式启动!本期我们将为大家介绍香港中文大学多媒体实验室招收全日制全奖博士生和硕士生等相关信息。

    2022年 10月 26日
  • AAAI 2021线上分享 | 加强进修与3D视觉结合新突破,国防科大实现高效能无序夹杂码垛呆板人

    ​在物流仓储场景中,无序夹杂纸箱码垛呆板人有着大量的应用需求。对于乱序到来的、多种尺寸规格的箱子,如何用呆板人实现自动、高效的码垛,节省人力的同时提升物流周转效率,是物流仓储自动化的一个难点成绩。其核心是求解装箱成绩(Bin Packing Problem, BPP)这一经典的 NP 难题,求解 BPP 成绩的传统办法大多是鉴于启发式规则的搜索。

    2021年 1月 15日
  • 观点分享 | 格物钛智能科技产品专家李薇:非结构化数据平台的下层逻辑和场景化实践

    2021年12月30日,由中国人工智能产业发展联盟和中国信息通信研究院联合举办的 “AI数据治理技术沙龙”通过腾讯会议从事。格物钛智能科技产品专家李薇对非结构化数据平台的下层逻辑和场景化实践从事了介绍,分享了自己的见解与思考。

    2022年 3月 30日
  • 「对华夏半导体实施卡脖子战略」:美国通过756页AI战略陈诉

    由众多硅谷科技巨头 CEO、首席科学家们组成的 NSCAI 委员会,倡议通过卡住半导体出口的方式防止华夏在现在新技能发展中占据主导地位。

    2021年 3月 2日
  • 所有判定被推翻,美最高法院:Java版权世纪大案,google战胜甲骨文

    美国最高法院终于在法律上认同了程序员们的技术共识:API 不应享有版权。

    2021年 4月 6日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注