AI「读图领会」首超人类！阿里达摩院刷新全球VQA纪录

机器之心 • 2021年 8月 12日下午4:23 • AI

历经六年，AI 在这一手艺上得分首超人类。

8 月 12 日，国际权威机器视觉问答榜单 VQA Leaderboard 出现关键突破：阿里巴巴达摩院以 81.26% 的准确率创造了新纪录，让 AI 在「读图领会」上首次超出人类基准。

继 2015 年、2018 年 AI 分别在视觉识别和文本了解规模超出人类分数之后，AI 在多模态手艺规模又迎来一大进展。

达摩院 AliceMind 在 VQA Leaderboard 上创造首次超出人类的纪录。

背景介绍

近十年来，AI 手艺保持高速发展，AI 模型已在多个任务和手艺上达到超出人类的水平，比如在游戏规模，强化学习智能体 AlphaGo 于 2016 年击败了世界顶尖棋手李世石；在视觉了解规模，以 CNN 为代表的卷积类模型于 2015 年在 ImageNet 视觉分类任务上超出了人类成绩；在文本了解规模，2018 年微软与阿里几乎同时在斯坦福 SQuAD 挑战赛上让 AI 阅读了解超出了人类基准。

VQA 是 AI 规模难度最高的挑战之一。在测试中，AI 需要根据给定图片及自然谈话问题生成正确的自然谈话回答。这意味着单个 AI 模型需要混合复杂的计算机视觉以及自然谈话手艺：首先对所有图像信息从事扫描，再结合对文本问题的了解，利用多模态手艺学习图文的关联性、精准定位相关图像信息，最后根据常识及推理回答问题。

VQA 手艺拥有广阔的应用场景，可用于图文阅读、跨模态搜索、盲人视觉问答、医疗问诊、智能驾驶等规模，或将变革人机交互方式。

宋代诗人张舜民的诗句「诗是无形画，画是有形诗」，描绘了谈话与视觉的相通之处。所谓的「读图领会」，即通过视觉了解信息，是人类的一项基础能力，但对 AI 来说却是要求极高的认知任务。解决该挑战，对研发通用人工智能具有重要意义。

尽管 AI 已经在下棋、视觉、文本了解等单模态手艺上实现突飞猛进，但在涉及视觉 – 文本跨模态了解的高阶认知任务上，AI 过去始终未达到人类水平。

阿里达摩院：VQA 分数终于超出人类

为攻克这一难题而设立的挑战赛 VQA Challenge，自 2015 年起先后于全球计算机视觉顶会 ICCV 及 CVPR 举办，吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构踊跃参与，并形成了国际上规模最大、认可度最高的 VQA（Visual Question Answering）数据集，其包含超 20 万张真实照片和 110 万道考题。

VQA 手艺自 2015 年以来的进展。

今年 6 月，阿里达摩院在 VQA 2021 Challenge 的 55 支提交队伍中夺冠，成绩领先第二名约 1 个百分点、领先去年冠军 3.4 个百分点。两个月后，达摩院再次以 81.26% 的准确率创造 VQA Leaderboard 全球纪录，首次超出人类基准线 80.83%。

VQA 的核心难点在于对多模态信息从事联合推理认知，即在统一模型里做不同模态的语义映射和对齐。

达摩院 NLP 及视觉团队对 AI 视觉 – 文本推理体系从事了系统性的设计，混合了大量算法创新，包括多样性的视觉特征表示、多模态预训练模型、自适应的跨模态语义混合和对齐手艺、知识驱动的多手艺 AI 集成等，让 AI「读图领会」水平上了一个新台阶。

具体地，为了解决 VQA 挑战，基于阿里云 PAI 平台及 EFLOPS 框架的工程底座，达摩院谈话手艺实验室及视觉实验室对 AI 视觉 – 文本推理体系从事了系统性的设计，混合了大量算法创新，包括：

多样性的视觉特征表示，从各方面刻画图片的局部和全局语义信息，同时使用 Region，Grid，Patch 等视觉特征表示，以更精准地从事单模态了解；基于海量图文数据和多粒度视觉特征的多模态预训练，用于更好地从事多模态信息混合和语义映射，创新性地提出了 SemVLP，Grid-VLP，E2E-VLP 和 Fusion-VLP 等预训练模型；研发自适应的跨模态语义混合和对齐手艺，创新性地在多模态预训练模型中加入 Learning to Attend 机制来从事跨模态信息地高效深度混合；采用 Mixture of Experts (MOE) 手艺从事知识驱动的多手艺 AI 集成。

其中自研的多模态预训练模型 E2E-VLP 和 StructuralLM 已经被国际顶级学术会议 ACL 2021 接受。模型大图如下：

我们来看一下实际效果展示，比如 VQA 考题中「根据有礼服装饰的小熊玩具照片来回答这些玩具用来做什么的？」达摩院 AliceMind 成功推理出一个可能的答案「婚礼」。

其实，这并不是阿里达摩院第一次在 AI 关键规模超出人类基准。2018 年，达摩院曾在斯坦福 SQuAD 挑战赛中历史性地让机器阅读了解首次超出人类，引发了海外媒体关注。今年以来，达摩院在 AI 底层手艺规模动作频频，先后发布了中国科技公司中首个超大规模多模态预训练模型 M6 及首个超大规模中文谈话模型 PLUG, 并开源了历经 3 年打造的深度谈话模型体系 AliceMind（https://github.com/alibaba/AliceMind），其曾登顶 GLUE 等六大国际权威 NLP 榜单。

原创文章，作者：机器之心，如若转载，请注明出处：https://www.iaiol.com/news/ai-du-tu-ling-hui-shou-chao-ren-lei-a-li-da-mo-yuan-shua/

AI VQA 模态视觉达摩院

机器之心

抖音「神曲」那么多，字节跳动是如何玩转亿级曲库的？

上一篇 2021年 8月 12日下午3:21

拖拽公式图片、一键转换LaTex公式，这款开源公式识别神器比Mathpix Snip更适合你

下一篇 2021年 8月 15日下午12:35

AI

上线十年，影响一代ML工程师，吴恩达经典《呆板进修》课程迎来重磅革新

Keep Learning！

2022年 4月 19日
AI

英伟达新架构发布，AI芯片上限提升了九倍，20块带宽就等于全球互联网

黄仁勋：芯片每代性能都翻倍，而且下个「TensorFlow」级 AI 工具可是我英伟达出的。

2022年 3月 23日
AI

google研究科学家Kevin P. Murphy几率机械进修典范教材再版，PDF免费下载

google研究科学家 Kevin P. Murphy 的几率机械进修册本即将发行第二版了。经历了近十年的发展之后，这本人工智能畛域典范册本的实质丰富了不少（从页数上也能看出来）。

2021年 1月 3日
AI

Creator 面对面 | 大模型的末尾一千米路“不太平”

自 2018 年谷歌推出 BERT 以来，语言模型就开始朝着「大模型」的标的目的演进。21 年诸如华为联合鹏城实验室 2000 亿参数的盘古、谷歌 1.6 万亿参数的 Switch Transfomer、智源研究院 1.75 万亿参数的的悟道 2.0 等相继产出。

2022年 7月 19日
AI

500万奖金，代码可上太空！华为开发者大赛启动

2022华为开发者大赛将于6月15日启动，大赛分为云底座和产业两大赛道，包含云使用翻新、代码上太空、世界难题、无人车等7大赛事，总奖金额将达500万。其中，华为云联合北京邮电大学等合作单位共同发起“代码上卫星”活动，面向广大开发者征集能适用于卫星的翻新使用，入选作品将有机会通过华为云和北邮联合设计的全球首个“云原生卫星盘算平台”布局到“天年星座”计划的多颗卫星中，完成“星海畅游”。“代码上太空”旨

2022年 6月 13日
AI

目睹太多读博惨案之后，清华姚班助理老师写了个读博决策树

读博之前请三思。对于部分同窗来说，结业当前读博是顺理成章的人生下一步。但在收获知识、荣誉的同时，你大概也要付出很大代价。最近，清华大学姚班助理老师张焕晨的一篇读博劝退文就在知乎上引起了热议。在文章中，他详细列举了读博之前需要三思的一些成绩，并用决策树的方式呈现了出来。在读完文章后，有人认为焕晨老师把读博之路描写得太痛苦了，劝退之味太浓。但焕晨老师表示，他的本意并非劝退，「故意把话说重是为了让各人认真思考」。他看到的现状是：良多特出的同窗都不在「我适不得当读博」这个重要成绩上进行过认真的思考，由此造成了良多「惨案」

2021年 6月 24日
AI

用深度进修解决游览推销员成绩，研究者走到哪一步了？

最近，针对游览推销员等拉拢优化成绩开发神经网络驱动的求解器引起了学术界的极大兴趣。这篇博文介绍了一个神经拉拢优化步骤，将几个最近提出的模型架构和进修范式统一到一个框架中。透过这一系列步骤，作者分析了深度进修在路由成绩方面的最新进展，并提供了新的方向来启发今后的研究，以创造实际的价值。

2022年 4月 6日
AI

27亿参数的「野生版」GPT-3开源，GitHub项目2.9K Star量

OpenAI 著名的说话模型 GPT-3 可以懂数学、翻译文字，还能写论文拿到及格成绩，这样的 AI 什么时候才能开源呢？现在已有了一个差不多的项目。

2021年 3月 26日
AI

Pravega Flink connector 的过去、现在和未来

本文整理自戴尔科技集团软件工程师周煜敏在 Flink Forward Asia 2020 分享的议题《Pravega Flink Connector 的过去、现在和未来》，文章内容为：Pravega 以及 Pravega connector 简介Pravega connector 的过去回顾 Flink 1.11 高阶特性心得分享未来展望一、Pravega 以及 Pravega connector 简介Pravega 项目的名字来源于梵语，意思是 good speed。项目起源于 2016

2021年 7月 22日
AI

94岁诺奖得主希格斯去世，曾预言「上帝粒子」的存留

一名用诗意的语言揭示宇宙秘密的人。一名 94 岁平凡科学家的逝世，引发了人们广泛的哀思。4 月 10 日消息，诺贝尔物理学奖得主、著名物理学家彼得・希格斯（Peter Higgs）于周一去世，享年 94 岁。希格斯因提出希格斯玻色子也被称为「上帝粒子」而闻名。根据爱丁堡大学的一份声明我们得知（彼得・希格斯是该校的名誉退休熏陶），希格斯经历短暂的生病后，于 4 月 8 日星期一在家中安静的离开。对于老爷子的去世，爱丁堡大黉舍长 Peter Mathieson 沉重的表示：「彼得・希格斯是一名杰出的科学家 &mdash

2024年 4月 10日

AI「读图领会」首超人类！阿里达摩院刷新全球VQA纪录

背景介绍

阿里达摩院：VQA 分数终于超出人类

相关推荐

发表回复