9亿训练集、通用CV任意，微软打造Florence模型打破分类、检索等多项SOTA

来自微软的钻研者另辟蹊径，提出了一种新的计算机视觉基础模型 Florence。在广泛的视觉和视觉 - 语言基准测试中，Florence 显著优于之前的大规模预训练方法，实现了新的 SOTA 结果。

面对多样化和开放的现实世界，要实现 AI 的自动视觉理解，就要求计算机视觉模型能够很好地泛化，最小化对特定任意所需的定制，最终实现类似于人类视觉的人工智能。计算机视觉基础模型在多样化的大规模数据集上从事训练，可以适应各种下游任意，对于现实世界的计算机视觉应用至关重要。

现有的视觉基础模型，如 CLIP (Radford et al., 2021)、ALIGN (Jia et al., 2021) 和悟道 2.0 等，主要侧重于将图象和文本表征映射为跨模态共享表征。近日来自微软的钻研另辟蹊径提出了一种新的计算机视觉基础模型 Florence，将表征从粗粒度（场景）扩展到细粒度（对象），从静态（图象）扩展到动态（视频），从 RGB 扩展到多模态。

通过结合来自 Web 规模图象 – 文本数据的通用视觉语言表征， Florence 模型可以轻松地适应各种计算机视觉任意，包括分类、检索、宗旨检测、视觉问答（VQA）、图象描述、视频检索和动作识别。此外，Florence 在许多迁徙进修中也表现出卓越的功能，例如全采样（fully sampled）微调、线性探测（linear probing）、小样本迁徙和零样本迁徙，这些对于视觉基础模型用于通用视觉任意至关重要。Florence 在 44 个表征基准测试中多数都取得了新的 SOTA 结果，例如 ImageNet-1K 零样本分类任意，top-1 准确率为 83.74，top-5 准确率为 97.18；COCO 微调任意获得 62.4 mAP，VQA 任意获得 80.36 mAP。

9亿训练集、通用CV任意，微软打造Florence模型打破分类、检索等多项SOTA

论文地址：https://arxiv.org/pdf/2111.11432v1.pdf

Florence 模型在有噪声的 Web 规模数据上以同一个宗旨从事端到端训练，使模型能够在广泛的基准测试中实现同类最佳功能。在广泛的视觉和视觉 – 语言基准测试中，Florence 显著优于之前的大规模预训练方法，实现了新的 SOTA 结果。

方法

构建 Florence 生态系统包括数据管护、模型预训练、任意适配和训练基础设施，如图 2 所示。

9亿训练集、通用CV任意，微软打造Florence模型打破分类、检索等多项SOTA

数据管护

由于大规模数据多样化对基础模型非常重要，因此该钻研提出了一个包含 9 亿个图象 – 文本对的新数据集用于训练。由于网络爬取数据通常是具有噪音的自由格式文本（例如，单词、短语或句子），为了获得更有效的进修，该钻研使用了 UniCL，这是 Yang 等人最近提出的「统一图象文本对比进修对象」，这种方法已经被证明其比对比和监督进修方法更优越。

模型预训练

为了从图象 – 文本对中进修良好的表示，该钻研使用了包括图象编码器和语言编码器的两塔式（two-tower）架构。对于图象编码器，该钻研选择了分层 Vision Transformer 。该钻研所提架构在继承了 Transformer self-attention 操作功能优势的同时，这些分层架构对图象的尺度不变性从事了建模，并且具有相对于图象大小的线性计算复杂度，这是从事密集预测任意必不可少的属性。

任意适配

该钻研使用 dynamic head adapter（Dai et al., 2021a）、提出的 video CoSwin adapter 从静态图到视频的时间、METER adapter 从图象到语言的模态变化，通过以上该钻研将进修到的特征表示沿空间（从场景到对象）从事扩展。Florence 旨在通过小样本和零样本迁徙进修来有效适配开放世界，并通过很少的 epoch 训练（例如在检索中）从事有效部署。用户可以根据自己的需求从事定制。

9亿训练集、通用CV任意，微软打造Florence模型打破分类、检索等多项SOTA

Dynamic Head (Dai et al., 2021a) adapter 用于对象级视觉表示进修。

9亿训练集、通用CV任意，微软打造Florence模型打破分类、检索等多项SOTA

图 4. METER (Dou et al., 2021) 用作 Florence V+L 适配模型，使用图象文本匹配 (ITM) 损失和掩码语言建模 (MLM) 损失从事训练。

训练基础设施

从能源和成本方面考虑，以尽可能低的成本构建基础模型是至关重要的。该钻研开发了可扩展的训练基础设施，以提高训练效率。Florence 训练基础设施由 ZeRO 、激活检查点、混合精度训练、梯度缓存等多项关键技术组成，从而大大减少了内存消耗，提高了训练吞吐量。

实验结果

该钻研从事了多项实验，表明了 Florence 显著优于之前的大规模预训练方法。

分类中的零样本迁徙

该钻研在 ImageNet-1K 数据集和 11 个下游数据集上评价了 Florence 模型。表 1 显示了这 12 个数据集的结果，比较的模型包括 CLIP ResNet 、CLIP Vision Transformer 模型以及 FILIP-ViT，结果显示 Florence 在其中 9 个数据集上表现出色。该钻研在 ImageNet-1K 上的零样本迁徙方面取得了显着的提高，即 top-1 准确率为 83.74%（比 SOTA 结果高 5.6%），top-5 准确率为 97.18%。

9亿训练集、通用CV任意，微软打造Florence模型打破分类、检索等多项SOTA

线性评价

线性评价考虑了 11 个分类基准，这些基准同样也适用于零样本分类迁徙。该钻研将 Florence 与具有 SOTA 功能的模型从事了比较，包括 SimCLRv2、ViT、Noisy Student 和 CLIP 。

结果表明，Florence 优于现有的 SOTA 结果，不过在 CIFAR10、CIFAR100 这两个数据集上功能不如 EfficientNet-L2 。

9亿训练集、通用CV任意，微软打造Florence模型打破分类、检索等多项SOTA

ImageNet-1K 微调评价

该钻研在 ImageNet ILSVRC-2012 基准（Deng et al., 2009）上评价了持续微调的功能，Florence 与几种模型的比较结果如下表 3 所示。Florence 模型的 Top-1 和 Top-5 准确率均优于 BiT（Kolesnikov et al., 2020）和 ALIGN（Jia 等人，2021 年）。Florence 的结果比 SOTA 模型（Dai et al., 2021c）稍差，但其模型和数据规模都比 Florence 大了 3 倍。

9亿训练集、通用CV任意，微软打造Florence模型打破分类、检索等多项SOTA

小样本跨域分类

下表 4 显示了 Florence 模型适应 CDFSL 基准的结果。与采用集成进修（ensembes learning）和直推进修（transductive learning）的挑战基准获胜者（Liu et al., 2020，下表中用 CW 指代）相比，Florence 采用单一模型，没有对测试数据从事转换，但获得了更优的结果。

9亿训练集、通用CV任意，微软打造Florence模型打破分类、检索等多项SOTA

图象 – 文本检索

表 5 展示了 Florence 在 Flickr30k 和 MSCOCO 数据集上在文本和图象检索任意上的零样本迁徙和微调功能。结果表明，在这两个数据集上，Florence 优于之前所有的微调结果。此外，该方法对检索微调更有效。

9亿训练集、通用CV任意，微软打造Florence模型打破分类、检索等多项SOTA

宗旨检测和零样本迁徙

宗旨检测是计算机视觉中最突出的应用之一。与现有的大规模预训练模型（如 CLIP、ALIGN 和 Wu Dao 2.0）相比，Florence 更适用于宗旨检测任意，因为它的适应性有助于进修对象级视觉表征。钻研者通过微调宗旨检测和零样本迁徙任意对来 Florence 的对象级视觉表征功能从事评价。

具体地，钻研者在 3 个流行的宗旨检测数据集上评价了微调功能，它们分别是 COCO（Lin et al., 2015）、Object365（Shao et al., 2019）和 Visual Genome（Krishna et al., 2016）。下表 6 展示了与 SOTA 结果的比较，可以看到，Florence 在这些宗旨检测基准上取得了新的 SOTA 结果。

9亿训练集、通用CV任意，微软打造Florence模型打破分类、检索等多项SOTA

为了评价 Florence 对新的、多样性和面向应用的任意的迁徙性，钻研者遵循 (Li et al., 2021b) 设计了一个「开放式宗旨检测基准」，该基准聚合了来自 Roboflow2 的 11 个公共数据集，涵盖了细粒度鱼类 / 象棋检测、无人机视野检测和 thermal 宗旨检测等多样性场景。下表 7 表明，Florence 模型能够有效地实现到这些任意的零样本迁徙。

9亿训练集、通用CV任意，微软打造Florence模型打破分类、检索等多项SOTA

视觉语言（V+L）表示进修

钻研者在具有挑战性的 VQA (Goyal et al., 2017) 任意上对预训练模型从事了微调，该任意是根据图象上下文来回答问题。下表 8 展示了与当前方法的比较，结果表明 Florence 实现的了新的 SOTA 功能。与使用了 1.8B 图象到文本对的 SimVLM 模型（Wang et al., 2021）相比，Florence 仅使用 900M 数据即可以预训练图象编码器，20M 数据即可以预训练视觉语言预训练（VLP），但取得的结果更好。这也证明了 Florence 的数据效率。

9亿训练集、通用CV任意，微软打造Florence模型打破分类、检索等多项SOTA

零样本文本到视频检索

钻研者在 MSR-VTT (Xu et al., 2016) 数据集上执行了零样本文本到视频评价，他们报告了在 1K-A test（Yu et al., 2018，包含 1k 个视频和字幕对）上的结果，并在下表 9 中与当前 SOTA 方法从事了比较。结果表明，CLIP6（Radford et al., 2021）和 Florence 这两个图象到文本预训练模型在 R@1 指标上远远优于其他所有 SOTA 方法。

9亿训练集、通用CV任意，微软打造Florence模型打破分类、检索等多项SOTA

视频动作识别

钻研者在微调视频动作识别任意上对 Florence 从事评价。下表 10 展示了 Florence 与当前 SOTA 方法的比较，结果表明在 Kinectics-400 和 Kinectics-600 两个数据集上，分别比 SOTA 方法提升 1.1% 和 1.5%。

9亿训练集、通用CV任意，微软打造Florence模型打破分类、检索等多项SOTA

{{userData.name}}已认证

9亿训练集、通用CV任意，微软打造Florence模型打破分类、检索等多项SOTA

影响众多编程语言、引发供应链打击，剑桥大学发布「木马源」马脚

腾讯朱雀实验室推出代码防护技能Deep Puzzling，让代码更难被猜透

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

{{userData.name}}已认证

影响众多编程语言、引发供应链打击，剑桥大学发布「木马源」马脚

腾讯朱雀实验室推出代码防护技能Deep Puzzling，让代码更难被猜透

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心 推动大模型产学研合作

字节跳动清华AIR成立联合研究中心推动大模型产学研合作