单一ViT模型实行多模态多义务,谷歌用共同训练策略完成多个SOTA

Transformer 真的很全能。

Transformers 是一个灵活的神经端到端模型族(family),最开始是为自然语言处理义务设计的。近来,Transformers 已经在图象分类、视频和音频等一系列感知义务上得到应用。虽然近来在分别领域和义务上取得了进展,但当前 SOTA 格式只能为手头的每个义务训练具有分别参数的单一模型。近日,谷歌研究院、剑桥大学和阿兰 · 图灵研究所的几位研究者在其论文《 PolyViT: Co-training Vision Transformers on Images, Videos and Audio 》提出了一种简单高效的训练单个统一模型的格式,他们将该模型命名为 PolyViT,它完成了有竞争力或 SOTA 的图象、视频和音频分类结果。在设计上,研究者不仅为分别的模态运用一个通用架构,还在分别的义务和模态中共享模型参数,从而完成了潜在共同作用。从技术上来讲,他们的格式受到了「transformer 是能够在任何可以 tokenized 的模态上运行的通用架构」这一事实的启发;从直觉上来讲,是由于人类感知在本质上是多模态的,并由单个大脑实行。单一ViT模型实行多模态多义务,谷歌用共同训练策略完成多个SOTA

论文地址:https://arxiv.org/abs/2111.12993

下图 1 为 PolyViT 的结构概览。

单一ViT模型实行多模态多义务,谷歌用共同训练策略完成多个SOTA

研究者主要运用的格式是共同训练(co-training),即同时在多个分类义务(可能跨多个模态)上训练单个模型。他们考虑了分别的设置,同时解决多达 9 个分别的图象、视频和音频分类义务。如上图 1 所示,PolyViT 模型能够实行多个义务,但对于给定的输入一次只能实行一个义务。虽然计算机视觉和自然语言领域探索过类似的格式,但研究者不清楚以往的工作是否考虑了多种模态以及是否运用这种格式完成了 SOTA 结果。我们的共同训练设置简单实用。它不需要对共同训练数据集的每个组合进行超参数调整,因为我们可以很容易地调整标准单义务训练的设置。此外,共同训练也不会增加整体训练成本,因为训练步骤的总数不超过每个单义务基线的总和。为了完成大量义务和模态共同训练的同时增加模型容量,研究者可以选择性地纳入 L_adapt ≥ 0 模态特定 transformer 层(他们表示为模态 – 适配器层),这些 transformer 层在 tokenization 之后直接应用。在这种情况下,所有模态和义务中会共享 L_=shared = L − L_adapt 层。共同训练流程在运用随机梯度下降(SGD)共同训练的所有义务中,研究者同时优化所有的 PolyViT 模型参数 θ。因此,在决定如何构建训练 batch、计算梯度以更新模型参数以及运用哪些训练超参数时有很多设计上的选择。在所有情况下,研究者运用来自单个义务中的示例来构建自己的训练 minibatch。这一设计选择使得他们在运用相同的训练超参数(如进修率、batch 大小和动量)作为传统单一义务基线时,可以评估梯度和更新参数。这样一来,与单一义务基线相比,研究者无需任何额外的超参数就可以实行多个义务上的共同训练,从而使得共同训练在实践中易于实行,并减少实行大规模超参数扫描(sweep)的需求以完成具有竞争力的准确性。在共同训练过程中,对于每个 SGD 步,研究者采样一个义务(或数据集),然后采样来自这个义务中的 minibatch,评估梯度并随后实行参数更新。需要着重考虑的是采样义务的顺序以及是否在分别的 minibatch 和义务上累积梯度。研究者在下图 2 中描述了几个义务采样计划,包括如下:

义务 1:逐义务(Task-by-task)

义务 2:交替(Alternating)

义务 3:统一义务采样(Uniform task sampling)

义务 4:加权义务采样(Weighted task sampling)

义务 5:累积梯度(Accumulating gradients)

单一ViT模型实行多模态多义务,谷歌用共同训练策略完成多个SOTA实验研究者在图象、音频和视频三种模态的 9 个分别分类义务上同时训练了 PolyViT。在图象分类共同训练时,他们运用了 ImageNet-1K、 CIFAR-10/100、Oxford-IIIT Pets 和 RESISC45 数据集;对于视频义务,他们运用了 Kinetics 400 和 Moments in Time 数据集;对于音频义务,他们运用了 AudioSet 和 VGGSound 数据集。下表 6 为具体实验设置:单一ViT模型实行多模态多义务,谷歌用共同训练策略完成多个SOTA下表 1 展示了分别义务采样计划在分别模态和义务上对共同训练本能的影响,粗体表示最高准确率,下划线表示次最高准确率。其中,「Task-by-task」采样计划表现糟糕,仅在一项义务上完成了不错的本能,这是灾难性遗忘(catastrophic forgetting)造成的。「Accumulated」采样计划需要在所有义务上运用单一的进修率,这是由于所有义务上的累积梯度被用于实行参数更新。因此,该计划仅在图象数据集上表现良好。「Alternating」、「Uniform」和「Weighted」采样计划表现最好,表明义务特定的进修率以及分别义务的梯度更新之间的转换对于准确率至关重要。单一ViT模型实行多模态多义务,谷歌用共同训练策略完成多个SOTA运用 PolyViT 的共同训练下表 2 展示了用于解决跨图象、音频和视频三种模态的 9 个分别义务的模型训练格式,包括 ViT-Im21K Linear probe、Single-task baseline 和本文的 PolyViT 及变体(分别是 PolyViT L_adapt = 0 和 PolyViT Ladapt = L/2)。结果显示,在单模态上训练的 PolyViT 在 9 个数据集的 7 个上完成了 SOTA 本能,其余 2 个数据集上的准确率差异可以忽略不计,不超过 0.3%。此外,参数的总数量比单个义务基线少了 2/3。同时,在运用参数大大减少的情况下,多模态 PolyViT 也完成了有竞争力的本能。

单一ViT模型实行多模态多义务,谷歌用共同训练策略完成多个SOTA

运用 linear probe 评估进修到的表示通过为一个新义务仅仅添加和训练一个新的线性头(linear head),研究者对 PolyViT 进修到的特征表示进行评估。下表 3 展示了多种模态上训练的 PolyViT 如何进修「在跨图象、音频和视频三种模态的 11 个线性评估义务上均表现良好的」跨模态特征表示。同时,表 3 还展示了多种模态上的共同训练如何有益于进修强大、可迁移且可用于多个下游义务的特征表示。单一ViT模型实行多模态多义务,谷歌用共同训练策略完成多个SOTA运用单模态共同训练完成 SOTA 本能 受到上表 2 中单模态共同训练本能的启发,研究者运用这种格式在音频和视频分类义务上实行了大规模共同训练实验。下表 4 和表 5 显示,在运用的参数明显更少的同时,他们完成了 SOTA 结果。如下表 4 所示,对于音频分类,研究者将 PolyViT 与当前 SOTA 格式 MBT(audio-only) 及相关变体 MBT: AS-500k→VGGSound 和 MBT: VGGSound→AS-500k。结果表明,PolyViT 在两个数据集上超越了 SOTA 格式,同时运用的参数大约是 MBT(audio-only) 的一半。此外,PolyViT 在更小的数据集 VGGSound 上完成了 2.8% 的 Top 1 准确率提升。单一ViT模型实行多模态多义务,谷歌用共同训练策略完成多个SOTA对于视频分类,研究者在 Kinetics-400、Kinetics-600 和 Moments in Time 数据集上共同训练了具有较小 tubelet size 的 PolyViT-Large 模型,并与当前 SOTA 模型 ViViT(运用相同的初始化、主干和 token 数量)进行了比较。结果如下表 5 所示,表明 PolyViT 在三个数据集上均超越了 ViViT。

单一ViT模型实行多模态多义务,谷歌用共同训练策略完成多个SOTA

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/27434

(0)
上一篇 2021年12月21日 下午3:15
下一篇 2021年12月22日 下午1:22

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注