9亿训练集、通用CV任意,微软打造Florence模型打破分类、检索等多项SOTA

来自微软的研讨者另辟蹊径,提出了一种新的计算机视觉基础模型 Florence。在广泛的视觉和视觉 – 语言基准测试中,Florence 显著优于之前的大规模预训练方法,实现了新的 SOTA 结果。

面对多样化和开放的现实世界,要实现 AI 的自动视觉理解,就要求计算机视觉模型能够很好地泛化,最小化对特定任意所需的定制,最终实现类似于人类视觉的人工智能。计算机视觉基础模型在多样化的大规模数据集上从事训练,可以适应各种下游任意,对于现实世界的计算机视觉应用至关重要。

现有的视觉基础模型,如 CLIP (Radford et al., 2021)、ALIGN (Jia et al., 2021) 和悟道 2.0 等 ,主要侧重于将图象和文本表征映射为跨模态共享表征。近日来自微软的研讨另辟蹊径提出了一种新的计算机视觉基础模型 Florence,将表征从粗粒度(场景)扩展到细粒度(对象),从静态(图象)扩展到动态(视频),从 RGB 扩展到多模态。通过结合来自 Web 规模图象 – 文本数据的通用视觉语言表征, Florence 模型可以轻松地适应各种计算机视觉任意,包括分类、检索、宗旨检测、视觉问答(VQA)、图象描述、视频检索和动作识别。此外,Florence 在许多转嫁进修中也表现出卓越的机能,例如全采样(fully sampled)微调、线性探测(linear probing)、小样本转嫁和零样本转嫁,这些对于视觉基础模型用于通用视觉任意至关重要。Florence 在 44 个表征基准测试中多数都取得了新的 SOTA 结果,例如 ImageNet-1K 零样本分类任意,top-1 准确率为 83.74,top-5 准确率为 97.18;COCO 微调任意获得  62.4 mAP,VQA 任意获得 80.36 mAP。9亿训练集、通用CV任意,微软打造Florence模型打破分类、检索等多项SOTA论文地址:https://arxiv.org/pdf/2111.11432v1.pdfFlorence 模型在有噪声的 Web 规模数据上以同一个宗旨从事端到端训练,使模型能够在广泛的基准测试中实现同类最佳机能。在广泛的视觉和视觉 – 语言基准测试中,Florence 显著优于之前的大规模预训练方法,实现了新的 SOTA 结果。方法构建 Florence 生态系统包括数据管护、模型预训练、任意适配和训练基础设施,如图 2 所示。9亿训练集、通用CV任意,微软打造Florence模型打破分类、检索等多项SOTA数据管护由于大规模数据多样化对基础模型非常重要,因此该研讨提出了一个包含 9 亿个图象 – 文本对的新数据集用于训练。由于网络爬取数据通常是具有噪音的自由格式文本(例如,单词、短语或句子),为了获得更有效的进修,该研讨使用了 UniCL,这是 Yang 等人最近提出的「统一图象文本对比进修对象」,这种方法已经被证明其比对比和监督进修方法更优越。模型预训练为了从图象 – 文本对中进修良好的表示,该研讨使用了包括图象编码器和语言编码器的两塔式(two-tower)架构。对于图象编码器,该研讨选择了分层 Vision Transformer 。该研讨所提架构在继承了 Transformer self-attention 操作机能优势的同时,这些分层架构对图象的尺度不变性从事了建模,并且具有相对于图象大小的线性计算复杂度,这是从事密集预测任意必不可少的属性。任意适配该研讨使用 dynamic head adapter(Dai et al., 2021a)、提出的 video CoSwin adapter 从静态图到视频的时间、METER adapter 从图象到语言的模态变化,通过以上该研讨将进修到的特征表示沿空间(从场景到对象)从事扩展。Florence 旨在通过小样本和零样本转嫁进修来有效适配开放世界,并通过很少的 epoch 训练(例如在检索中)从事有效部署。用户可以根据自己的需求从事定制。9亿训练集、通用CV任意,微软打造Florence模型打破分类、检索等多项SOTADynamic Head (Dai et al., 2021a) adapter 用于对象级视觉表示进修。9亿训练集、通用CV任意,微软打造Florence模型打破分类、检索等多项SOTA图 4. METER (Dou et al., 2021) 用作 Florence V+L 适配模型,使用图象文本匹配 (ITM) 损失和掩码语言建模 (MLM) 损失从事训练。训练基础设施从能源和成本方面考虑,以尽可能低的成本构建基础模型是至关重要的。该研讨开发了可扩展的训练基础设施,以提高训练效率。Florence 训练基础设施由 ZeRO 、激活检查点、混合精度训练、梯度缓存等多项关键技术组成,从而大大减少了内存消耗,提高了训练吞吐量。实验结果该研讨从事了多项实验,表明了 Florence 显著优于之前的大规模预训练方法。分类中的零样本转嫁该研讨在 ImageNet-1K 数据集和 11 个下游数据集上评价了 Florence 模型。表 1 显示了这 12 个数据集的结果,比较的模型包括 CLIP ResNet 、CLIP Vision Transformer 模型以及 FILIP-ViT,结果显示 Florence 在其中 9 个数据集上表现出色。该研讨在 ImageNet-1K 上的零样本转嫁方面取得了显着的提高,即 top-1 准确率为 83.74%(比 SOTA 结果高 5.6%),top-5 准确率为 97.18%。9亿训练集、通用CV任意,微软打造Florence模型打破分类、检索等多项SOTA线性评价线性评价考虑了 11 个分类基准,这些基准同样也适用于零样本分类转嫁。该研讨将 Florence 与具有 SOTA 机能的模型从事了比较,包括 SimCLRv2、ViT、Noisy Student 和 CLIP 。结果表明,Florence 优于现有的 SOTA 结果,不过在 CIFAR10、CIFAR100 这两个数据集上机能不如 EfficientNet-L2 。9亿训练集、通用CV任意,微软打造Florence模型打破分类、检索等多项SOTAImageNet-1K 微调评价该研讨在 ImageNet ILSVRC-2012 基准(Deng et al., 2009)上评价了持续微调的机能,Florence 与几种模型的比较结果如下表 3 所示。Florence 模型的 Top-1 和 Top-5 准确率均优于 BiT(Kolesnikov et al., 2020)和 ALIGN(Jia 等人,2021 年)。Florence 的结果比 SOTA 模型(Dai et al., 2021c)稍差,但其模型和数据规模都比 Florence 大了 3 倍。9亿训练集、通用CV任意,微软打造Florence模型打破分类、检索等多项SOTA小样本跨域分类下表 4 显示了 Florence 模型适应 CDFSL 基准的结果。与采用集成进修(ensembes learning)和直推进修(transductive learning)的挑战基准获胜者(Liu et al., 2020,下表中用 CW 指代)相比,Florence 采用单一模型,没有对测试数据从事转换,但获得了更优的结果。9亿训练集、通用CV任意,微软打造Florence模型打破分类、检索等多项SOTA图象 – 文本检索表 5 展示了 Florence 在 Flickr30k 和 MSCOCO 数据集上在文本和图象检索任意上的零样本转嫁和微调机能。结果表明,在这两个数据集上,Florence 优于之前所有的微调结果。此外,该方法对检索微调更有效。9亿训练集、通用CV任意,微软打造Florence模型打破分类、检索等多项SOTA宗旨检测和零样本转嫁宗旨检测是计算机视觉中最突出的应用之一。与现有的大规模预训练模型(如 CLIP、ALIGN 和 Wu Dao 2.0)相比,Florence 更适用于宗旨检测任意,因为它的适应性有助于进修对象级视觉表征。研讨者通过微调宗旨检测和零样本转嫁任意对来 Florence 的对象级视觉表征机能从事评价。具体地,研讨者在 3 个流行的宗旨检测数据集上评价了微调机能,它们分别是 COCO(Lin et al., 2015)、Object365(Shao et al., 2019)和 Visual Genome(Krishna et al., 2016)。下表 6 展示了与 SOTA 结果的比较,可以看到,Florence 在这些宗旨检测基准上取得了新的 SOTA 结果。9亿训练集、通用CV任意,微软打造Florence模型打破分类、检索等多项SOTA为了评价 Florence 对新的、多样性和面向应用的任意的转嫁性,研讨者遵循 (Li et al., 2021b) 设计了一个「开放式宗旨检测基准」,该基准聚合了来自 Roboflow2 的 11 个公共数据集,涵盖了细粒度鱼类 / 象棋检测、无人机视野检测和 thermal 宗旨检测等多样性场景。下表 7 表明,Florence 模型能够有效地实现到这些任意的零样本转嫁。9亿训练集、通用CV任意,微软打造Florence模型打破分类、检索等多项SOTA视觉语言(V+L)表示进修研讨者在具有挑战性的 VQA (Goyal et al., 2017) 任意上对预训练模型从事了微调,该任意是根据图象上下文来回答问题。下表 8 展示了与当前方法的比较,结果表明 Florence 实现的了新的 SOTA 机能。与使用了 1.8B 图象到文本对的 SimVLM 模型(Wang et al., 2021)相比,Florence 仅使用 900M 数据即可以预训练图象编码器,20M 数据即可以预训练视觉语言预训练(VLP),但取得的结果更好。这也证明了 Florence 的数据效率。9亿训练集、通用CV任意,微软打造Florence模型打破分类、检索等多项SOTA零样本文本到视频检索研讨者在 MSR-VTT (Xu et al., 2016) 数据集上执行了零样本文本到视频评价,他们报告了在 1K-A test(Yu et al., 2018,包含 1k 个视频和字幕对)上的结果, 并在下表 9 中与当前 SOTA 方法从事了比较。结果表明,CLIP6(Radford et al., 2021)和 Florence 这两个图象到文本预训练模型在 R@1 指标上远远优于其他所有 SOTA 方法。9亿训练集、通用CV任意,微软打造Florence模型打破分类、检索等多项SOTA视频动作识别研讨者在微调视频动作识别任意上对 Florence 从事评价。下表 10 展示了 Florence 与当前 SOTA 方法的比较,结果表明在 Kinectics-400 和 Kinectics-600 两个数据集上,分别比 SOTA 方法提升 1.1% 和 1.5%。9亿训练集、通用CV任意,微软打造Florence模型打破分类、检索等多项SOTA

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/9-yi-xun-lian-ji-tong-yong-cv-ren-yi-wei-ruan-da-zao/

(0)
上一篇 2021年 11月 23日 下午2:27
下一篇 2021年 11月 27日 下午2:31

相关推荐

  • 优化器怎么选?一文教你挑选适合不同ML项目的优化器

    为机械进修项目挑选符合的优化器不是一件简单的事。

    2021年 1月 5日
  • UT Austin朱玉可主讲,CS391R 2021秋季课程上线,专注呆板人感知与决策

    UT Austin的经典课程CS391R,已经上线了2021秋季版本的全新内容。先收藏,有时间再开始学?

    2021年 9月 7日
  • baidu研究院RAL团队登顶nuScenes三维方向检测公开挑战赛榜单

    随着主动驾驭技能在不同场景下的持续落地,方向检测作为其中的一项核心模块,对检测算法的精度和稳定性要求越来越高。近日,在国际机器人技能与主动化会议(ICRA 2021)举办的第四届nuScenes三维方向检测挑战赛中,来自baidu研究院的机器人与主动驾驭实验室(RAL)团队在三维物体检测任务的多项评价方向中荣获第一,并将关键方向nuScenes Detection Score (NDS)从上一届的71.4%提高至74.9%,刷新了三维方向检测比赛成绩。ICRA2021 nuScenes三维物体检测挑战赛官方排行榜榜单地址

    2021年 6月 23日
  • 无需训练,主动扩大的视觉Transformer来了

    来自德克萨斯大学奥斯汀分校、悉尼科技大学和谷歌的研讨者提出了一个无需训练就能主动扩大框架 As-ViT,其能以高效和有原则的方式主动发现和扩大 ViT。

    2022年 4月 10日
  • 阿里云发布第一台设计师云电脑:单运用最高1024核的超级工作站

    10月18日云栖大会开放日上,阿里云基于新一代无影架构的两款一体机已对观众展出。两款新品分为23.8寸标准版和27寸Pro版,Pro版为手绘场景配有触控屏和触控笔,官方先容为首款设计师云电脑。在云栖大会展区,观众已经可以对一体机进行初步感受:在一体机屏幕上,过去在Windows、Linux、安卓或国产操作零碎的3D渲染、视觉设计、编程环境、手机游戏等软件,10多个演示运用图标聚集于一屏。用户无需切换零碎,无需下载,即点即用。单运用经过适配,目前最高可运用1024核CPU和8块高性能GPU。图注:观众在展区感受无影一

    2021年 10月 18日
  • 华盛顿大学《天生模型》2020秋季课程完结,课件、讲义全部放出

    这门课聚焦天生建模技术的理论和数学基础,探讨多种天生模型技术。

    2021年 1月 29日
  • 不能练习?网传MSRA停招国防七子及北邮在校生

    美国商务部对实体清单相关对象的制约越来越大了。

    2022年 4月 14日
  • 「小破站」真顶流,CMU说话手艺研究所登陆B站:这是学术圈的新时尚?

    小破站真是出息了。当年发迹于二次元的「小破站」,俨然时代顶流了。继加拿大滑铁卢大学老师在 B 站开设《差分隐私》课程之后,现在又有国外机构来小破站开课了!😏1 月 20 日,一个名为「LTIatCMU」(卡耐基梅隆大学说话手艺研究所)的账号,悄悄在 B 站上传了 9 个视频。CMU 副老师 Graham Neubig 发推表示,这些讲座集结了说话手艺研究所(LTI)成员与客座讲师,在 YouTube 和 B 站均有资源。「我们的中国朋友也可以观看 bilibili:https://space.bilibili.c

    2021年 2月 4日
  • 揭秘Hologres如何支持超高QPS在线办事(点查)场景

    Hologres(中文名交互式分解)是阿里云自研的一站式及时数仓,这个云原生系统融合了及时办事和分解大数据的场景,全面兼容PostgreSQL协定并与大数据生态无缝打通,能用同一套数据架构同时支持及时写入及时盘问以及及时离线联邦分解。它的出现简化了业务的架构,为业务提供及时决策的能力,让大数据发挥出更大的商业价值。本期将为大家揭秘Hologres如何支持超高QPS点查。传统的 OLAP 系统在业务中往往扮演着比较静态的角色,以通过分解海量的数据得到业务的洞察(比如说预计算好的视图、模型等),从这些海量数据分解到的结

    2021年 7月 29日
  • 斥资20亿出圈 蜂巢动力上海车展启动业内首个革新日

    4月20日,以“革新动力 引领未来”为主题的蜂巢动力首个革新日在本届上海车展期间正式启动,标志着蜂巢动力品牌策略进级进入2.0阶段。在革新日发布会现场,蜂巢动力宣布进入品牌2.0阶段,并成立蜂巢资源,投入20亿元基金扶植家产革新,计划招募跨界家产合作伙伴20家,全世界招募100名革新先蜂科学家,旨在通过跨界合作,集结全家产链上下游各企业力量,打造动力电池行业产、学、研、用相结合的跨界融合革新生态圈,提升本土企业的自立革新和深度研发实力。品牌全新进级 蜂巢动力进入2.0  活动现场,蜂

    2021年 4月 25日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注