一举刷新单、多模型史上最佳成绩,BLENDer 是怎么做到的?2020 年 11 月 19 日,腾讯微视「BLENDer」模型凭借「81.6,86.4,70.8」的成绩,登上了多模态领域权威榜单 VCR 的榜首。这项最新成果来自腾讯微视视频明白团队。在这个之前,榜单的纪录保持者是百度、微软、Facebook 等知名机构。
BLENDer(BimodaL ENcoDer)创造了 VCR 排行榜的单 / 多模型最佳成绩,而提交模型的出发点仅是验证团队的多模态算法。什么是 VCR ?当人们谈到「腾讯微视」,或许想到的是一款「短视频 App」,它经常出现在微信朋友圈里,同时也是很多人的装机必备软件……既然是视频业务,就肯定会涉及到实质考查、实质创作等,视觉常识推理(Visual Commonsense Reasoning,VCR)解决的就是让机器「秒懂内涵」的问题。所以,在走近腾讯微视手艺团队之前,更应该深入了解一下 VCR 这个义务。2018 年,来自华盛顿大学和艾伦人工智能研究所的 Rowan Zellers、Yonatan Bisk、Ali Farhadi、Yejin Choi 四位学者联合发起了一项 VCR 义务,该数据集包括 11 万个电影场景中的 29 万个多项式选择题,是当前图象明白和多模态领域层次最深、门槛最高的义务之一。VCR 义务包括问答 (question answering) 和解释 (rationale) 两个子义务。在问答子义务上,计算机必要结合问题(如图中人物动作、意图等)和与问题相关的图片举行明白,通过四选一举行回答;在解释子义务上,计算机必要在此基础上通过四选一给出第一部分谜底的解释。以下图为例,模型必要回答两轮问题。两道题都答对,才能获得最终得分。第一个问题:为什么 person 4 要指向 person 1?
正确谜底是,person 4 在告诉 person 3,person 1 点了薄饼。(这对于人类来说是很容易解读的)给出谜底后,计算机还必要回答:「为什么这样判断?」比如该示例的第二道问题,正确谜底是:person 3 正在上菜,但他不知道这些食物都是谁点的。对于人类来说,只必要看一眼图片,就能比较容易地明白出图片的内涵,比如行为、目标、精神状态,甚至人物之间的关系。但这种义务对于机器视觉系统来说是比较困难的,必要更高层次的认知和常识推理能力。这项高难度义务已经吸引了微软、谷歌、Facebook、百度等多个科技公司的团队参与。此前,这一义务的众多纪录保持者包括 ERNIE-ViL-large(15 模型集合)、UNITER-large(10 模型集合)等。
但现在最强的是 BLENDer,凭借单模型同时刷新了此前榜单上的单、多模型效果。单模型 BLENDer 如何打榜 VCR?BLENDer 是怎么做到的?
BLENDer 第一阶段算法模型BLENDer 基于当前主流的 one stream 的视觉语言 BERT 模型,该模型的学习过程分为三个阶段:第一阶段在大约 150w 对图片及其描述的样本上举行预训练,采纳了 Masked Language Modeling (MLM), Masked Region Modeling (MRM)和 Image-Text Matching (ITM)三组预训练义务,如图所示。第二阶段在 VCR 的训练集上举行进一步的预训练,继续采用第一阶段的 MLM 和 MRM 义务。第三阶段举行最后的 finetune,输入 VCR 提供的 question, answer 和 rationale 以及 box feature,在[CLS] token 的输出举行 Q->A 和 QA->R 的二分类。以上所有阶段的 box feature 都采用的 BUTD 算法提取的 res-101 feature,除了 flip 没有采用其他增强手段。相比以往的参赛模型,BLENDer 加入了人物物体关系推理、噪声对抗训练以及针对性更强的 MLM,最终,BLENDer 将三项问答准确率提高到了 81.6, 86.4, 70.8 的水平,单模型表现即超越此前单、多模型效果。具体手艺方案细节,团队会在近期开源相关代码、模型和文章。腾讯微视将人工智能手艺赋能短视频 一直以来,腾讯微视高度关注手艺研发,腾讯微视产品也为人工智能手艺落地提供了广泛的应用场景。视频明白团队更是长期深耕多模态语义明白领域,持续举行手艺突破和落地,将相关手艺应用在海量图象、视频、文本等跨媒体信息的认知推理中。 同时,团队也从业务出发不断探索前沿领域,并将人工智能手艺应用到短视频生态中,贯穿实质创作、实质考查以及实质散发的各个环节。 在实质创作环节,腾讯微视将 3D 人脸、人体、GAN 等 AI 手艺结合 AR 手艺辅助用户举行实质创作,让创作过程更加便捷、有趣和普惠;在视频考查环节,腾讯微视借助图象检测、分类、多模态明白等 AI 手艺精准识别视频实质,提升考查效率,使得用户生产的实质最快时间触达消费者,目前腾讯微视实质处理效率已经持平业界领先水平;而在视频散发环节,腾讯微视借助 AI 手艺从非结构化的图象、音频、文本数据中提取结构化信息输出,如标签、特征等,支撑散发精准匹配用户。 未来,人工智能将具备更加多元、深度的交流学习能力,而手艺的创新和精进将进一步推动 AI 手艺在短视频业务中智能交互场景的落地。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/35881