六项使命、多种数据类型,谷歌、DeepMind提出高效Transformer评价基准

自诞生以来,Transformer 在差别领域得到了广泛应用,钻研职员也提出了许多高效 Transformer 模型。如何评价这类模型呢?最近,谷歌和 DeepMind 提出了一项系统化的统一基准——Long-Range Arena,重点关注长语境场景下的模型质量评价。

六项使命、多种数据类型,谷歌、DeepMind提出高效Transformer评价基准

基准项目地址:https://github.com/google-research/long-range-arena

论文地址:https://arxiv.org/pdf/2011.04006.pdf

Transformer 在多个模态(语言、图象、蛋白质序列)中获得了 SOTA 结果,但它存在一个缺点:自注意力机制的平方级复杂度限制了其在长序列领域中的应用。目前,钻研职员提出大量高效 Transformer 模型(「xformer」),试图解决该问题。其中很多展示出了媲美原版 Transformer 的本能,同时还能有效降低自注意力机制的内存复杂度。谷歌和 DeepMind 的钻研职员比较了这些论文的评价和实验设置,得到了以下几点发现:

首先,高效 Transformer 缺少统一的基准尝试,使用的使命类型也多种多样:每个模型在差别的使命和数据集上进行评价。

其次,评价所用基准通常是随意选择的,未充分考虑该使命是否适用于长程建模评价。

第三,很多论文将归纳偏置的效果和预训练的优点混为一谈,这会模糊模型的真正价值:预训练本身是计算密集型的,将归纳偏置和预训练分离开来可降低 xformer 钻研的门槛。

于是,谷歌和 DeepMind 的钻研职员提出了一个新基准 Long-Range Arena (LRA),用来对长语境场景下的序列模型进行基准尝试。该基准包括合成使命和现实使命,钻研职员在此基准上比较了十个近期提出的高效 Transformer 模型,包括 Sparse Transformers、Reformer、Linformer、Longformer、Sinkhorn Transformer、Performer、Synthesizer、Linear Transformer 和 BigBird 模型。该基准主要关注模型在长语境场景下的本领,不过钻研职员对 xformer 架构在差别数据类型和条件下的本领也很感兴趣。因此,该基准选择了具备特定先验结构的数据集和使命。例如,这些架构可以建模层级结构长序列或包含某种空间结构形式的长序列吗?这些使命的序列长度从 1K 到 16K token 不等,还包括大量数据类型和模态,如文本、自然图象、合成图象,以及需要类似度、结构和视觉 – 空间推理的数学表达式。该基准主要面向高效 Transformer,但也可作为长程序列建模的基准。除了比较模型质量以外,该钻研还进行了大量效率和内存使用分析。钻研者认为,并行本能基准尝试对于社区是有益且珍贵的,能够帮助大家深入了解这些方法的实际效率。总之,该钻研提出了一个统一框架,既能对高效 Transformer 模型进行简单的并行比较分析,还能对长程序列模型进行基准尝试。该框架使用 JAX/FLAX1 编写。高效 Transformer 评价新基准:Long-Range Arena (LRA)基准需求在创建 LRA 基准之前,钻研者先列举了一些需求:

1. 通用性:适用于一起高效 Transformer 模型。例如,并非一起 xformer 模型都能执行自回归解码,因此该基准中的使命仅需要编码。

2. 简洁性:使命设置应简单,移除一起令模型比较复杂化的因素,这可以鼓励简单模型而不是笨重的 pipeline 方法。

3. 挑战性:使命应该对目前模型有一定难度,以确保未来该方向的钻研有足够的进步空间。

4. 长输出:输出序列长度应该足够长,因为评价差别模型如何捕获长程依赖是 LRA 基准的核心关注点。

5. 探索差别方面的本领:使命集合应当评价模型的差别本领,如建模关系和层级 / 空间结构、泛化本领等。

6. 非资源密集、方便使用:基准应该是轻量级的,方便不具备工业级计算资源的钻研者使用。

使命LRA 基准包含多项使命,旨在评价高效 Transformer 模型的差别本领。具体而言,这些使命包括:Long ListOps、比特级文本分类、比特级文档检索、基于像素序列的图象分类、Pathfinder(长程空间依赖性)、Pathfinder-X(极端长度下的长程空间依赖性)。LRA 使命所需的注意力领域LRA 基准的主要目标之一是评价高效 Transformer 模型捕获长程依赖的本领。为了对注意力机制在编码输出时需要考虑的空间领域进行量化估计,该钻研提出了「所需注意力领域」(required attention span)。给出一个注意力模型和输出 token 序列,注意力模块的所需注意力领域是 query token 和 attended token 间的平均距离。

六项使命、多种数据类型,谷歌、DeepMind提出高效Transformer评价基准

图 2 总结了 LRA 基准中每项使命的所需注意力领域,从图中可以看出每项使命的所需注意力领域都很高。这表明,Transformer 模型不仅仅涉及局部信息,在很多使命和数据集中,注意力机制通常需要结合邻近位置的信息。实验量化结果实验结果表明,LRA 中的一起使命都具备一定的挑战性,差别 xformer 模型的本能存在一定程度的差异。具体结果参见下表 1:

六项使命、多种数据类型,谷歌、DeepMind提出高效Transformer评价基准

效率基准表 2 展示了 xformer 模型的效率基准尝试结果:

六项使命、多种数据类型,谷歌、DeepMind提出高效Transformer评价基准

从中可以看出,低秩模型和基于核的模型通常速率最快。整体最快的模型是 Performer,在 4k 序列长度上的速率是 Transformer 的 5.7 倍,Linformer 和 Linear Transformer 紧随其后。最慢的模型是 Reformer,在 4k 序列长度上的速率是 Transformer 的 80%,在 1k 序列长度上的速率是 Transformer 的一半。此外,钻研者还评价了这些模型的内存消耗情况。结果显示,内存占用最少的模型是 Linformer,在 4k 序列长度上只使用了 0.99GB per TPU,而原版 Transformer 使用了 9.48GB per TPU,内存占用减少了约 90%。整体结果:不存在万能模型根据钻研职员的分析,在 LRA 一起使命中整体本能最好(LRA 分数最高)的模型是 BigBird。但是,BigBird 在每项使命中的本能均不是最好,它只是在一起使命上都能取得不错的本能。Performer 和 Linear Transformer 在一些使命中表现抢眼,但其平均分被 ListOps 使命拖累。下图 3 展示了模型本能、速率和内存占用之间的权衡情况。BigBird 本能最好,但速率几乎与原版 Transformer 相同。而 Local Attention 模型速率很快,但本能较低。在这些模型中,基于核的模型(如 Performer、Linformer 和 Linear Transformer)能够在速率和本能之间获得更好的折中效果,同时内存占用也较为合理。

六项使命、多种数据类型,谷歌、DeepMind提出高效Transformer评价基准

参考阅读:高效 Transformer 层出不穷,谷歌团队综述文章一网打尽

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/%e5%85%ad%e9%a1%b9%e4%bd%bf%e5%91%bd%e3%80%81%e5%a4%9a%e7%a7%8d%e6%95%b0%e6%8d%ae%e7%b1%bb%e5%9e%8b%ef%bc%8c%e8%b0%b7%e6%ad%8c%e3%80%81deepmind%e6%8f%90%e5%87%ba%e9%ab%98%e6%95%88transformer%e8%af%84/

(0)
上一篇 2020年 11月 24日 下午3:23
下一篇 2020年 12月 1日 上午11:03

相关推荐

  • 机械进修获得了量子加速

    编辑 | 萝卜为了让 Valeria Saggio(麻省理工学院的量子物理学家)在她以前的维也纳试验室启动计算机,她需要一个特殊的水晶;水晶大概只有她的指甲那么大。Saggio 会轻轻地将它放入一个小铜盒,一个微型电烤箱,将晶体加热到 77 华氏度。然后她会打开激光,用一束光子轰击晶体。这种晶体,在这个精确的温度下,会将其中一些光子分裂成两个光子。其中一个会直接进入一个光探测器,它的旅程就结束了;另一个将进入一个微型硅芯片——一个量子计算处理器。芯片上的微型仪器可以驱动光子沿着不同的门路前进

    2022年 2月 11日
  • 上海交大ACM班创始人俞勇:为培育种植提拔华夏的图灵奖得主而教书

    俞勇是上海交大 ACM 班的创始人,成立 20 年来这个班级里走出了得多计算机科学和人工智能领域的优秀人材,比如林晨曦、戴文渊、李磊、李沐、陈天奇,等等。这不仅归功于 ACM 班,更离不开俞勇这个人。今年 60 岁的他虽会继续留在上海交大,但对于「培育种植提拔华夏的计算机科学家」这个方向而言,ACM 班四年的时间太短,得多习惯在本科开始改变太晚。他正致力于将这些年来积累的教导理念、方法和资源拓展到全社会,期望有一天他的门生能够获得图灵奖。采访约在一座商场的咖啡厅里,约定好的时间我迟到了,俞教员就站在店外等我。第一眼见到他时

    2022年 1月 20日
  • 硅谷精神导师凯文·凯利:70岁生日那天,人们把他网站冲瘫痪了

    「用密码管理工具吧」,凯文 · 凯利如是说。

    2022年 4月 30日
  • 悲观智能文档批阅系统,推动证券非结构化文档处理提质提效

    悲观智能批阅系统,实行相关场景非结构化文档的辨别剖析、智能考核及与交易对接等,并通过平台化建设提供一定的可拓展性和泛化能力。

    2022年 1月 11日
  • 比照进修引领弱标签进修新SOTA,浙大新研究入选ICLR Oral

    本文介绍浙江大学、威斯康星大学麦迪逊分校等机构的最新工作 PiCO,相关论文已被 ICLR 2022 录用(Oral, Top 1.59%)!偏标签进修 (Partial Label Learning, PLL) 是一个经典的弱监视进修问题,它允许每一个训练样本关联一个候选的标签荟萃,适用于许多具有标签不确定性的的现实世界数据标注场景。然而,现存的 PLL 算法与完全监视下的法子依然存在较大差距。为此,本文提出一个协同的框架解决 PLL 中的两个关键研究挑战 —— 表征进修和标签消歧。具体地,

    2022年 2月 17日
  • baidu全新无人挖掘机功课体系登上国际权威期刊《Science Robotics》

    近日,由baidu研究院机器人与自动驾驶实验室(RAL)团队牵头开发的全新无人挖掘机功课体系(AES)这一最新技能成果,登上了国际顶级期刊《Science》子刊《Science Robotics》,并获得了评审专家与期刊编委的高度评价。该研究融合了感知、活动布局和控制体系,可驱动挖掘机自主完成挖装恣意,从事24小时连续无人化功课,并成为全球首个实际落地的、可长时间功课的无人挖掘机体系,在工程机械自动化、无人化功课领域具有重要价值和影响。随着新型基础设施建设的大力推进,工程机械行业乘风而上,并不断向数字化、智能化方向演进。

    2021年 7月 2日
  • 伯克利大神一人投中16篇:ICLR 2021论文接管统计出炉

    ICLR 2021 会议中投稿量和论文接管量最多的作家和机构都有哪些?这个 GitHub 项目做了一个统计。

    2021年 1月 19日
  • 可微分骨架树:基于梯度的份子优化算法

    这周我们简单介绍一个高效份子优化的方法。该工作由UIUC的Jimeng Sun组合MIT的Connor Coley组合作完成,对应的文章题目是Differentiable Scaffolding Tree for Molecule Optimization[1],被2022年ICLR接受,主要的代码和数据发布在https://github.com/futianfan/DST。内容:思路:基于梯度的份子优化份子的可微分骨架树类梯度上升的优化算法优化效果测试由可微性失掉的可解释性思路:基于梯度的份子优化在药物发现中,分

    2022年 2月 21日
  • 94岁诺奖得主希格斯去世,曾预言「上帝粒子」的消失

    一名用诗意的语言揭示宇宙秘密的人。一名 94 岁巨大科学家的逝世,引发了人们广泛的哀思。4 月 10 日消息,诺贝尔物理学奖得主、著名物理学家彼得・希格斯(Peter Higgs)于周一去世,享年 94 岁。希格斯因提出希格斯玻色子也被称为「上帝粒子」而闻名。根据爱丁堡大学的一份声明我们得知(彼得・希格斯是该校的光荣退休传授),希格斯经历短暂的生病后,于 4 月 8 日星期一在家中安静的离开。对于老爷子的去世,爱丁堡大黉舍长 Peter Mathieson 沉重的表示:「彼得・希格斯是一名杰出的科学家 &mdash

    2024年 4月 10日
  • 【重磅】世界人工智能大会——2021全世界AI财产人材高峰论坛强势来袭!

    图灵奖得主、中外院士、独角兽企业掌门人云集;智能芯片、类脑智能、双碳经济、未来医院、数字家园等热点话题荟萃;人形机械人、训练芯片等首发展品精彩纷呈;超大规模预训练模型等尖端成果竞逐大奖;还有数字人民币、无人驾驶、智慧商业等鲜活体验。

    2021年 6月 23日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注