即插即用、无需训练:剑桥大学、腾讯AI Lab等提出免训练跨模态文本天生框架

来自剑桥大学、腾讯 AI Lab 等机构的研究者提出了一个全新的框架 MAGIC (iMAge-guided text GeneratIon with CLIP),MAGIC 通过直接插入可控图文匹配

来自剑桥大学、腾讯 AI Lab 等机构的研究者提出了一个全新的框架 MAGIC (iMAge-guided text GeneratIon with CLIP),MAGIC 通过直接插入可控图文匹配模型分数的方式,使得言语模型在解码过程中选择更接近图片信息的天生结果。

1. 导读本文提出了一个全新的 MAGIC (iMAge-guided text GeneratIon with CLIP)框架。该框架可以应用图片模态的信息指导预训练言语模型完成一系列跨模态天生使命,例如 image captioning 和 visually grounded story generation。与其他方式不同的是,MAGIC 框架无需多模态训练数据,只需利用现成的言语模型(例如 GPT-2)和图文匹配模型(例如 CLIP)就能够以 zero-shot 的方式高质量地完成多模态天生使命。此外,不同于应用梯度更新天生模型 cache 的传统方式,MAGIC 框架无需梯度更新,因而具备更高效的推理效率。

图片

论文:https://arxiv.org/abs/2205.02655

代码:https://github.com/yxuansu/MAGIC

2. 研究背景以及目的借助日益强大的预训练言语模型,我们已经可以根据文本前缀天生一段流通文本。当前,绝大多数工作的主要研究方向集中于利用文本模态的前缀来天生后续文本的方式。然而,如何有效利用其他模态的信息(例如图片)来指导预训练言语模型天生高质量的文本,仍然是一个待解决的难题。目前,针对此类问题最常见的解决思路是在收集好的高质量多模态平行数据的基础上,训练多模态的模型来完成特定的跨模态使命。例如,我们可以在图文匹配的标注数据集上,通过监视学习的方式训练 image captioning 模型,从而根据输入图片天生对应的文本描述。但是,该方式存在标注数据获取困难的弊端,并不适合所有应用场景。为了解决这一难题,许多研究者提出了一系列弱监视的方式。而这类方式也有其弊端,它们会受到不同多模态使命的特定限制。例如,在 image captioning 使命中,弱监视的方式需要应用特定的目标检测器,来收集图片内可识别目标的标签信息。然而,当图片中包含目标检测器无法识别的物体 (out-of-domain object) 时,弱监视方式的有效性就会大打折扣。为了摆脱对目标检测器的依赖从而真正实现 zero-shot 跨模态文本天生,ZeroCap[1]提出在推理阶段通过梯度更新的方式修正天生言语模型内部的隐状态,从而使天生的文本描述和图片内容尽可能接近。但是,这一方式也有其弊端,通过多次迭代梯度更新来调整模型的内部隐状态,在当前预训练言语模型参数量越来越大的趋势下,其运行效率会变得越来越低,严重限制了该方式在实际场景中的应用。本文提出了一个全新的 MAGIC 框架。MAGIC 通过直接插入可控的图文匹配模型分数的方式,使得言语模型在解码过程中选择更接近图片信息的天生结果。这样,言语模型可以在不经过任何跨模态训练的情况下,高质量地解决跨模态天生使命,得到明显优于弱监视模型的文本天生质量。同时,与 ZeroCap 相比,MAGIC 还拥有接近 27 倍的推理速度提升。3. 研究方式3.1 无监视言语建模为了适应特定跨模态使命的文本领域,该研究预先应用了跨模态训练数据集中的文本数据,采取无监视的方式更新言语模型的参数(仅需在 1 块 NVIDIA 1080Ti 上运行不到两个小时),从而使得言语模型更加熟悉该领域的文本分布。具体而言,本文应用 MLE 损失函数训练言语模型的参数:

图片

此外,SimCTG[2]的最新工作证明了通过引入对比损失来校准模型的语义空间,能够获得质量更高的言语模型。因此,本文也同时优化如下的对比损失:

图片

其中 图片是用来校准天生模型表示空间的 margin 参数,图片用来计算 token 表示之间的余弦相似度。最终,本文将两个损失函数合并,以此来优化文本模态的 GPT-2 言语模型:

图片

3.2 MAGIC Search本文提出了 MAGIC Search 解码算法。MAGIC 应用视觉信息指导预训练言语模型的天生过程。具体而言,给定文本前缀 图片和图片图片,第 t 步的 token 选择公式如下:

图片

其中图片表示按照言语模型概率分布选择的 top-k 个候选 token。同时,该研究借鉴了 SimCTG 中 contrastive search 的思路,在 token 选择指标中引入了 model confidence 和 degeneration penalty 项来使得模型选择更合适的 token。上述公式中最重要的一项是将视觉控制信息引入到模型解码过程中的 magic score:

图片

其中图片是 CLIP 的 image encoder 产生的图片表示,图片是 CLIP 的 text encoder 产生的文本表示。图片参数用来调节视觉信息的控制力度。当其值为 0 时,言语模型的天生过程不再被视觉信息所影响,从而 magic search 退化为传统的 contrastive search。4. 实行结论4.1 Zero-shot Image Captioning4.1.1 实行设置本文在 MS-COCO 和 Flickr30k 数据集上进行了大量的实行,并选用以下的无监视 baseline 进行对比:1.top-k sampling:不基于图片信息,用 top-k 解码方式应用言语模型来天生 caption2.nucleus sampling:不基于图片信息,用 nucleus 解码方式应用言语模型天生 caption3.contrastive search:不基于图片信息,用 contrastive search 解码方式应用言语模型来天生 caption4.CLIPRe:应用 CLIP 模型从 MS-COCO 或 Flickr30k 的训练数据中检索文本数据5.ZeroCap:在解码过程中,应用 CLIP 信息来指导言语模型梯度更新的方式值得注意的是 top-k sampling, nucleus sampling 和 contrastive search 解码方式因为不基于图片信息,所以可看作是文本天生模型在跨模态使命上的性能下界。此外,本文还选取了一批监视和弱监视的方式来进行对比。对于评介方式,本文采用 image captioning 中经典的评介指标:BLEU-1, BLEU-4,  METEOR, ROUGE-L, CIDEr 和 SPICE,同时也测试了不同模型的相对解码速率。4.1.2 MS-COCO 和 Flickr30k 实行结果

图片

如上图所示,本文发现当忽视 captions 的信息,只应用言语模型进行天生时效果并不好(Top-k, Nucleus, Contrastive),这说明没有对应的图片信息,只依靠言语模型很难完成这个跨模态的使命。CLIPRe 方式效果虽然显著好于 Top-k 等纯文本解码方式,但仍然弱于当前 SOTA 无监视方式,ZeroCap,这是由 training set 和 test set 之间的数据差异所造成。这也证明了检索模型在该使命上效果弱于天生模型。本文 MAGIC 的天生结果显著优于 ZeroCap,展示了 MAGIC 框架的有效性。并且因为 MAGIC 完全不依赖于梯度更新,其解码速度比 ZeroCap 快接近 27 倍。4.1.3. 跨领域实行结果此外,本文还进行了跨领域实行以进一步测试 MAGIC 的泛化能力。具体而言,本文应用在源领域(例如 MS-COCO)上得到的无监视言语模型,在目标领域(例如 Flickr30k)的测试集上进行实行。本文在该实行中对比无监视解码方式和 CLIPRe。其中 CLIPRe 的检索数据集仅来自于源领域的训练集,实行结果如下:

图片

从表格中结果可以发现,MAGIC 远好于纯文本解码方式和 CLIPRe 强 baseline。4.1.4. Case Study该研究通过一些例子来定性的对比 baseline 和本文方式:

图片

这几个例子显示出 MAGIC 不仅能够天生非常流通的文本,同时其天生文本中的信息和图片模态的关联性也更强。例如图 (a) 中,MAGIC 可以准确的天生 “building”,但是 ZeroCap 却天生了“school bus” 这个无关的结果。此外,图 (d) 中,虽然 ZeroCap 天生了 “boatboard” 这一相关词汇,但其语句流通度低,并且存在语法错误。相比之下,MAGIC 天生的文本在通顺流畅的同时,也与图片显示的内容一致。4.2 基于视觉的小说天生 除了 image captioning 使命之外,该研究还将 MAGIC 框架拓展到了其他基于视觉的文本天生使命,例如基于视觉的小说天生(visually grounded story generation)。在该使命中,给一个图片和小说题目,模型的使命是天生一个流通有趣并且与图片内容及小说题目一致的小说。4.2.1 实行设置本文在 ROCStories 数据集上进行了实行,并选取以下的文本解码方式作为该研究的 baseline:(1) Greedy search;(2)Beam search;(3)Top-K sampling;(4)Nucleus sampling;(5)Typical sampling;和(6)Contrastive search。为了达到给 ROCStories 数据集中每一个测试样例提供一个图片信息的目的,本文应用 CLIP 模型从公开的 ConceptCaption 数据集中检索和小说题目最相关的图片。为了有效评介模型的效果,本文采用了以下几种评介指标:1. 自动评介指标:本文采用之前文本天生研究中的一系列评介指标a.n-gram 重复率 (rep-n)b. 天生文本多样性 (div.)c. 语义一致性(coh.):天生的小说和题目是否语义一致d. 图文匹配相关性 (CLIPScore)e.MAUVE 分数2. 人工评介指标:为了更精准的反映天生小说的质量,五个专业的标注员从以下几个角度对天生小说的质量进行打分(1-5 分,1 分最差,5 分最好)a. 相关性:天生的小说是否和题目有关b. 流通度:天生的小说是否流通易懂c. 信息量:天生的小说是否多样且有趣d. 小说图片相关性:天生的小说是否和通过题目检索得到的图片语义一致4.2.2 实行结果

图片

如上图所示,MAGIC 在大多数的指标上都达到了最佳的效果,明显优于其他方式。其中 rep-n, diversity 和 MAUVE 的最佳结果说明 MAGIC 天生的小说和人类文本更加接近。并且 MAGIC 在 coherence 和图文匹配一致性分数上显著优于其他的方式,说明 MAGIC 在综合利用了图片和文本题目的信息之后可以天生和题目信息更加相关的小说内容。人工评介的效果也显示 MAGIC 天生的小说在各个角度上均达到了最好的效果。4.2.3 Case Study

图片

如上图所示,MAGIC 可以有效的天生和图片有关的信息。在第一个例子中,MAGIC 天生的小说包含了详细的冰淇凌的种类和味道,除了 orange 的结果稍有差异,其他的文本都完美符合图片中的描述。在第二个例子中,contrastive search 天生的结果和小说题目间相关度较差。与之相反,MAGIC 天生的内容和图片中的信息及主题高度相关,例如:(1)和朋友们在沙滩;(2)打沙滩排球;(3)比赛持续了两个小时;(4)朋友赢下了比赛。参考文献:[1] Tewel et al., ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic, arXiv 2022[2] Su et al., A Contrastive Framework for Neural Text Generation, arXiv 2022

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/30125

(0)
上一篇 2022年5月12日 下午2:47
下一篇 2022年5月13日 下午2:57

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注