华人一作统一「视觉-谈话」理解与天生:一键天生图象标注,完成视觉问答,Demo可玩

这个 BLIP 模型可以「看图说话」,提取图象的主要内容,不仅如此,它还能回答你提出的关于图象的问题。

视觉 – 谈话预训练 (Vision-Language Pre-training,VLP) 提高了许多视觉 – 谈话使命的功能。然而,大多数现有的预训练模型只能在鉴于理解使命或鉴于天生使命中表现出色。现有的 VLP 步骤主要存在两个局限性:(1)从模型角度来讲,大多数步骤采用鉴于编码器的模型,或者采用鉴于编码器 – 解码器模型。然而,鉴于编码器的模型很难直接转换到文本天生使命中,而编码器 – 解码器模型还没有成功地用于图象 – 文本检索使命;(2)从数据角度来讲,像 CLIP、SimVLM 等 SOTA 模型通过在 web 上收集的图象 – 文本对举行预训练,尽管扩大数据集获得了功能提升,但 web 上的文本具有噪声,对 VLP 来说并不是最优。 近日,来自 Salesforce Research 的研究者提出了 BLIP(Bootstrapping Language-Image Pre-training),用于统一视觉 – 谈话理解和天生使命。BLIP 是一个新的 VLP 框架,可以支持比现有步骤更广泛的下游使命。BLIP 通过自展标注(bootstrapping the captions),可以有效地利用带有噪声的 web 数据,其中标注器(captioner)天生标注,过滤器(filter)去除有噪声的标注。该研究在视觉 – 谈话使命上取得了 SOTA 功能,例如在图象 – 文本检索使命上, recall@1 提高 2.7%;在图象标注使命上,CIDEr 提高 2.8%、VQA 提高 +1.6%。当将 BLIP 以零样本的方式直接迁移到视频 – 谈话使命时,BLIP 也表现出很强的泛化能力。论文一作为Salesforce亚洲研究院高级研究科学家Junnan Li,香港大学电子工程学士,新加坡国立大学计算机科学博士。他的主要研究兴趣在于自监督进修、半监督进修、弱监督进修、迁移进修以及视觉与谈话。 

图片

论文地址:https://arxiv.org/pdf/2201.12086.pdf

代码地址:https://github.com/salesforce/BLIP

试玩地址:https://huggingface.co/spaces/akhaliq/BLIP

BLIP 的效果如何呢?用户只需上传一张图象,或单击内置示例加载图象就可完成。BLIP 模型具有两个功能:图象标注和回答问题。这里,我们上传了猫咪和狗的图片:在图象标注这一功能下,模型输出「caption: a puppy and a kitten sitting in the grass(一只小狗和一只小猫坐在草地上)」(如下图红框所示)。

图片

在回答问题功能下:当我们输入问题「what is the color of the puppy(小狗的颜色是什么)」,模型输出「tan(棕黄色)」。

图片

上传著名油画《星夜》,在图象标注功能下模型输出「caption: a painting of a starry night over a city(一幅描绘城市星空的画)」。

图片

上传经典动画《龙猫》,向模型提问「who is standing next to totoro(谁坐在龙猫旁边)」,模型回答「little girl(小女孩)」。

图片

架构 & 步骤研究者提出的 BLIP 是一个统一的视觉谈话预训练(vision-language pre-training, VLP)框架,从有噪声的图象文本对中进修。接下来详细解读模型架构 MED(mixture of encoder-decoder)、它的预训练方针以及用于数据集自展的步骤 CapFilt。下图 2 为 BLIP 的预训练模型架构和方针。

图片

动态运行示意图如下:

图片

模型架构研究者将一个视觉 transformer 用作图象编码器,该编码器将输入图象分解为 patch,然后将这些 patch 编码为序列嵌入,并利用一个额外的[CLS] token 表征全局图象特征。相较于将预训练方针检测器用于视觉特征提取的步骤,利用 ViT 在计算上更友好,并且已被最近很多步骤所采用。为了预训练一个具备理解和天生能力的统一模型,研究者提出了多使命模型 MED(mixture of encoder-decoder),它可以执行以下三种功能的任意一种:

单峰编码器

鉴于图象的文本编码器

鉴于图象的文本解码器

 预训练方针研究者在预训练过程中共同优化了三个方针,分别是两个鉴于理解的方针和一个鉴于天生的方针。每个图象文本对只需要一个前向传播通过计算更重(computational-heavier)的视觉 transformer,需要三个前向传播通过文本 transformer,其中激活不同的功能以计算以下 3 个损失,分别是:

图象文本对比损失(image-text contrastive loss, ITC),激活单峰编码器,旨在通过鼓励正图象文本对(而非负对)具有相似的表征来对齐视觉与文本 transformer 的特征空间;

图象文本匹配损失(image-text matching loss, ITM),激活鉴于图象的文本编码器,旨在进修捕获视觉与谈话之间细粒度对齐的图象文本多模态表征;

谈话建模损失(language modeling loss, LM),激活鉴于图象的文本解码器,旨在给定一张图象时天生文本描述。

为了在利用多使命进修的同时实现高效的预训练,文本编码器和解码器必须同享除自注意力(self-attention, SA)层之外的所有参数。具体地,编码器利用双向自注意力为当前输入 token 构建表征,同时解码器利用因果自注意力预测接下来的 token。另外,嵌入层、交叉注意力(cross attention, CA)层和 FFN 在编码和解码使命之间功能类似,因此同享这些层可以提升训练效率并能从多使命进修中获益。 CapFilt 研究者提出了一种提升文本语料库质量的新步骤——CapFilt(Captioning and Filtering)。如下图 3 所示,CapFilt 引入了两个主要的模块:一个是为给定 web 图象天生标注的标注器(captioner),另一个是消除有噪声图象文本对的过滤器(filter)。这两个模块都源于同一个预训练 MED 模型,并各自在 COCO 数据集上微调。

图片

具体地,标注器是一个鉴于图象的文本解码器。它利用 LM 方针举行微调,以解码给定图象的文本。比如,给定 web 图象 I_w,则标注器天生标注 T_s,其中每张图象一个标注。过滤器是一个鉴于图象的文本编码器。它利用 ITC 和 ITM 方针举行微调,以进修文本是否与图象匹配。过滤器消除原始 web 文本 T_w 和合成文本 T_s 中的噪声文本,其中如果 ITM 头(head)预测一个文本与图象不匹配,则该文本被认为有噪声。最后,研究者将过滤后的图象文本对于人工注释对相结合以天生一个新的数据集,并用它预训练了新模型。实验结果研究者在 PyTorch 中实现模型,并在两个 16-GPU 节点上预训练模型。其中,图象 transformer 源于在 ImageNet 上预训练的 ViT,文本 transformer 源于 BERT_base。CapFilt 的效果下表 1 中,研究者比较了在不同数据集上预训练的模型,以验证 CapFilt 在下游使命(包括微调和零样本设置下的图象文本检索和图象标注)上的效用。

图片

下图 4 中给出了一些标注示例以及对应的图象,从而在质量上验证了标注器有效地天生新的文本描述,过滤器有效地消除原始 web 文本和合成文本中的噪声标注。

图片

合成标注的关键:多样性 在 CapFilt 步骤中,研究者利用一种随机解码步骤——核抽样(nucleus sampling)来天生合成标注。下表 2 中与束搜索(beam search)步骤举行了比较,可以看到核抽样取得了更好的数据结果,尽管由于过滤器更高的噪声比导致了更大的噪声。

图片

参数同享与解耦在预训练中,文本编码器和解码器同享所有参数,除自注意力层外。表 3 评估了利用不同参数同享策略举行预训练的模型功能,其中预训练是在 14M 带有 web 文本的图象上举行的。结果表明,除 SA 外,所有层具有参数同享优于那些没有举行参数同享的,同时也减少了模型的大小,从而提高了训练效率。

图片

在 CapFilt 中,标注器和过滤器分别在 COCO 上举行了端到端的微调,表 4 研究了标注器和过滤器以同享参数的方式举行预训练的影响。由于参数同享,标注器产生的噪声标注不会被过滤器过滤掉,这可以从较低的噪声比 (8% 比 25%) 看出。

图片

与 SOTA 模型举行比较该研究将 BLIP 与 VLP 模型在视觉 – 谈话下游使命上举行了比较。如表 5 所示,与现有步骤相比,BLIP 实现了功能改进。利用相同的 14M 预训练图象,BLIP 在 COCO 上的 recall@1 比之前的最佳模型 ALBEF 高 2.7%。

图片

该研究还通过将在 COCO 上微调的模型直接迁移到 Flickr30K 来执行零样本检索。结果如表 6 所示,BLIP 也大大优于现有步骤。

图片

在图象标注使命上,该研究采用两个数据集:NoCaps 和 COCO,两者都利用在 COCO 上微调并具有 LM 损失的模型举行评估。如表 7 所示,利用 14M 预训练图象的 BLIP 显著优于利用相似数量的预训练数据的步骤。利用 129M 图片的 BLIP 与利用 200M 图片的 LEMON 相比,具有相媲美功能。

图片

视觉问答 (VQA) 要求模型在给定图象和问题的情况下预测答案。该研究没有将 VQA 制定为多答案分类使命,而是遵循 Li 等人研究将其视为一个答案天生使命,它支持开放式 VQA。结果如表 8 所示,在测试集上,利用 14M 图象,BLIP 的功能比 ALBEF 高出 1.64%。利用 129M 图象,BLIP 比 SimVLM 获得了更好的功能,而 SimVLM 利用了 13 倍多的预训练数据和更大的视觉骨干,并附加了一个卷积阶段。

图片

更多实验数据请参见原论文。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/hua-ren-yi-zuo-tong-yi-shi-jue-tan-hua-li-jie-yu-tian-sheng/

(0)
上一篇 2022年 1月 28日 下午5:12
下一篇 2022年 2月 6日 下午1:04

相关推荐

  • 清华大学计图团队首创三角网格面片上的卷积神经搜集,首次取得100%正确率

    这项研究将极大地促进了三维视觉、虚拟现实、智慧城市和无人驾驶等领域的发展。

    2021年 6月 20日
  • 无代码生产力对象赋能数字化供应链新发展

    「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动将来的AI技术」与「重塑财产的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、财产专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI财产的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与财产科技融合趋势。

    2022年 8月 1日
  • TensorFlow 2.4来了:上线对分布式训练和混合精度的新功能反对

    今天,谷歌正式发布了 TensorFlow 2.4,带来了多项新特性和功能改进。

    2020年 12月 15日
  • 不能练习?网传MSRA停招国防七子及北邮在校生

    美国商务部对实体清单相关对象的制约越来越大了。

    2022年 4月 14日
  • 可微分骨架树:基于梯度的份子优化算法

    这周我们简单介绍一个高效份子优化的方法。该工作由UIUC的Jimeng Sun组合MIT的Connor Coley组合作完成,对应的文章题目是Differentiable Scaffolding Tree for Molecule Optimization[1],被2022年ICLR接受,主要的代码和数据发布在https://github.com/futianfan/DST。内容:思路:基于梯度的份子优化份子的可微分骨架树类梯度上升的优化算法优化效果测试由可微性失掉的可解释性思路:基于梯度的份子优化在药物发现中,分

    2022年 2月 21日
  • 耶鲁大学教授亲自授课,教你EM算法的全局收敛

    Online Seminar on Mathematical Foundations of Data Science (Math for DS) [1]是在线的、每周举办的系列研讨会。研讨会旨在讨论数据科学、机器学习、统计以及优化背后的数学原理,邀请了北美诸多知名学者进行中心演讲。『运筹OR帷幄』和『机器之心』作为合作媒体,将在B站发布往期的回放视频。本期,受邀佳宾将为我们带来中心为“Global Convergence of EM?”的演讲。

    2021年 4月 8日
  • CVPR 2021 | 不需要标注了?看自监视进修框架如何助力主动驾驭

    来自主动驾驭公司轻舟智航和约翰霍普金斯大学的学者提出了一个自监视进修框架,可从未标注的激光雷达点云和配对的相机图象中从事点云疏通估量,与现有的监视办法相比,该办法具有良好的性能,当进一步从事监视微调时,模型优于 SOTA 办法。

    2021年 5月 17日
  • 古代首次打败特斯拉,成韩国消费者最中意的EV品牌

    2021韩国电动汽车博览会(xEV TRENDKOREA 2021)从上月19日至本月14日面向1467名民众,实施电动汽车采办喜好观察,于28日发布结果显示,古代力压特斯拉,成为韩国消费者最偏好的电动汽车品牌,古代击败特斯拉是该观察自2018年起开始实施后的首次。 观察还显示,87%的受访者称未来5年内有采办电动汽车的理想,较去年增长了23%。近年电动汽车品牌趋于多样化,消费者对于电动汽车的关注度和采办理想也大幅上升。消费者采办电动汽车时最注重最大续航里程、充电站设施、价格、购车贴补等。受访者认为电动汽

    2021年 5月 28日
  • 魔方电池如何“躺赢”?解锁荣威iMAX8 EV“头等舱”危险密码

    近期不时出现的电动车自燃事件,让新能源汽车的危险问题再登风口浪尖。一直以来,电池危险是新能源汽车用户最为关切的首要问题。消除电池危险隐患,从根本上化解用户的危险焦虑,是整体新能源汽车行业努力的方向。中国荣威旗下纯电奢华MPV荣威iMAX8 EV在危险性能方面,领先行业标准,采用上汽魔方电池,通过五重递进式的多层防备,不妨兑现整包零热失控。“头等舱”的危险感背后隐藏着哪些黑科技?8月10日,来自上汽创新研发总院捷能公司的电池技术专家们进行了一场电池解析直播课,生动地展示了魔方电池的危险之道。五

    2022年 8月 10日
  • 悉尼大学教授陶大程加入京东,出任京东试探研究院院长

    机器之心 3 月 9 日消息,人工智能和信息迷信规模国际知名学者、悉尼大学教授、澳大利亚迷信院院士陶大程已正式出任京东试探研究院 (JD Explore) 院长。

    2021年 3月 9日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注