AI「读图领会」首超人类!阿里达摩院刷新全球VQA纪录

历经六年,AI 在这一手艺上得分首超人类。

8 月 12 日,国际权威机器视觉问答榜单 VQA Leaderboard 出现关键突破:阿里巴巴达摩院以 81.26% 的准确率创造了新纪录,让 AI 在「读图领会」上首次超出人类基准。

继 2015 年、2018 年 AI 分别在视觉识别和文本了解规模超出人类分数之后,AI 在多模态手艺规模又迎来一大进展。

AI「读图领会」首超人类!阿里达摩院刷新全球VQA纪录

达摩院 AliceMind 在 VQA Leaderboard 上创造首次超出人类的纪录。

背景介绍

近十年来,AI 手艺保持高速发展,AI 模型已在多个任务和手艺上达到超出人类的水平,比如在游戏规模,强化学习智能体 AlphaGo 于 2016 年击败了世界顶尖棋手李世石;在视觉了解规模,以 CNN 为代表的卷积类模型于 2015 年在 ImageNet 视觉分类任务上超出了人类成绩;在文本了解规模,2018 年微软与阿里几乎同时在斯坦福 SQuAD 挑战赛上让 AI 阅读了解超出了人类基准。

VQA 是 AI 规模难度最高的挑战之一。在测试中,AI 需要根据给定图片及自然谈话问题生成正确的自然谈话回答。这意味着单个 AI 模型需要混合复杂的计算机视觉以及自然谈话手艺:首先对所有图像信息从事扫描,再结合对文本问题的了解,利用多模态手艺学习图文的关联性、精准定位相关图像信息,最后根据常识及推理回答问题。

VQA 手艺拥有广阔的应用场景,可用于图文阅读、跨模态搜索、盲人视觉问答、医疗问诊、智能驾驶等规模,或将变革人机交互方式。

宋代诗人张舜民的诗句「诗是无形画,画是有形诗」,描绘了谈话与视觉的相通之处。所谓的「读图领会」,即通过视觉了解信息,是人类的一项基础能力,但对 AI 来说却是要求极高的认知任务。解决该挑战,对研发通用人工智能具有重要意义。

尽管 AI 已经在下棋、视觉、文本了解等单模态手艺上实现突飞猛进,但在涉及视觉 – 文本跨模态了解的高阶认知任务上,AI 过去始终未达到人类水平。

阿里达摩院:VQA 分数终于超出人类

为攻克这一难题而设立的挑战赛 VQA Challenge,自 2015 年起先后于全球计算机视觉顶会 ICCV 及 CVPR 举办,吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构踊跃参与,并形成了国际上规模最大、认可度最高的 VQA(Visual Question Answering)数据集,其包含超 20 万张真实照片和 110 万道考题。

VQA 手艺自 2015 年以来的进展。

今年 6 月,阿里达摩院在 VQA 2021 Challenge 的 55 支提交队伍中夺冠,成绩领先第二名约 1 个百分点、领先去年冠军 3.4 个百分点。两个月后,达摩院再次以 81.26% 的准确率创造 VQA Leaderboard 全球纪录,首次超出人类基准线 80.83%。

VQA 的核心难点在于对多模态信息从事联合推理认知,即在统一模型里做不同模态的语义映射和对齐。

达摩院 NLP 及视觉团队对 AI 视觉 – 文本推理体系从事了系统性的设计,混合了大量算法创新,包括多样性的视觉特征表示、多模态预训练模型、自适应的跨模态语义混合和对齐手艺、知识驱动的多手艺 AI 集成等,让 AI「读图领会」水平上了一个新台阶。

具体地,为了解决 VQA 挑战,基于阿里云 PAI 平台及 EFLOPS 框架的工程底座,达摩院谈话手艺实验室及视觉实验室对 AI 视觉 – 文本推理体系从事了系统性的设计,混合了大量算法创新,包括:

多样性的视觉特征表示,从各方面刻画图片的局部和全局语义信息,同时使用 Region,Grid,Patch 等视觉特征表示,以更精准地从事单模态了解;基于海量图文数据和多粒度视觉特征的多模态预训练,用于更好地从事多模态信息混合和语义映射,创新性地提出了 SemVLP,Grid-VLP,E2E-VLP 和 Fusion-VLP 等预训练模型;研发自适应的跨模态语义混合和对齐手艺,创新性地在多模态预训练模型中加入 Learning to Attend 机制来从事跨模态信息地高效深度混合;采用 Mixture of Experts (MOE) 手艺从事知识驱动的多手艺 AI 集成。

其中自研的多模态预训练模型 E2E-VLP 和 StructuralLM 已经被国际顶级学术会议 ACL 2021 接受。模型大图如下:

AI「读图领会」首超人类!阿里达摩院刷新全球VQA纪录

AI「读图领会」首超人类!阿里达摩院刷新全球VQA纪录

我们来看一下实际效果展示,比如 VQA 考题中「根据有礼服装饰的小熊玩具照片来回答这些玩具用来做什么的?」达摩院 AliceMind 成功推理出一个可能的答案「婚礼」。

AI「读图领会」首超人类!阿里达摩院刷新全球VQA纪录

其实,这并不是阿里达摩院第一次在 AI 关键规模超出人类基准。2018 年,达摩院曾在斯坦福 SQuAD 挑战赛中历史性地让机器阅读了解首次超出人类,引发了海外媒体关注。今年以来,达摩院在 AI 底层手艺规模动作频频,先后发布了中国科技公司中首个超大规模多模态预训练模型 M6 及首个超大规模中文谈话模型 PLUG, 并开源了历经 3 年打造的深度谈话模型体系 AliceMind(https://github.com/alibaba/AliceMind),其曾登顶 GLUE 等六大国际权威 NLP 榜单。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/ai-du-tu-ling-hui-shou-chao-ren-lei-a-li-da-mo-yuan-shua/

(0)
上一篇 2021年 8月 12日 下午3:21
下一篇 2021年 8月 15日 下午12:35

相关推荐

  • 高考结束了,来看下QS最新全全国大学排名,清华北大进前20

    近日,全全国高等教育研究机构 QS(Quacquarelli Symonds)发布了 2022 年 QS 全国大学排名:麻省理工学院连续十年蝉联冠军,国内排名最高的是清华、北大,分别位列 17、18 位。南方科技大学表现亮眼,超越众多 985、211 高校,排名第 275。

    2021年 6月 9日
  • 腾讯朱雀实验室推出代码防护技巧Deep Puzzling,让代码更难被猜透

    随着AI技巧与网络安全结合得越来越紧密,鉴于AI技巧的网络攻防手段也在日益更替。11月26日,全球顶级的信息安全峰会HITB+Cyberweek 2021于近日举办,腾讯朱雀实验室专家钻研员Jifeng Zhu和钻研员Keyun Luo受邀参加,并进行了题为《Deep Puzzling: Binary Code Intention Hiding based on AI Uninterpretability》(《鉴于AI不可解释性的二进制代码用意躲藏》)的议题分享。会上,腾讯朱雀实验室展示了如何行使AI模型的特性,实

    2021年 11月 27日
  • 集结云产业核心成员建立分布式智囊团 安迈云受邀助推新一代云盘算

    2021年5月28日,由中关村数智人工智能产业联盟指导,51CTO主办的“云响力Web3.0新一代云盘算大会”在北京圆满落幕,这次峰会集结了来自华为云、腾讯云、京东云、海潮信息等众多一线云盘算厂商,此外,以安迈云为代表的去中心化云盘算企业也受邀参与这次峰会,共同针对Web3.0期间云盘算的成长,探索新的利用场景。汇集云产业链核心成员 建立“分布式智囊团”这次大会不仅在于对新一代云盘算技巧、利用上的实践分享,更是由大会主办方51CTO发起,海潮信息、安迈云、Datenl

    2021年 5月 31日
  • 耗时3个多月、总结过往5年,马毅曹颖沈向洋撰文智能两大准则

    在深度网络和人工智能复兴十年后,本文提出了一个理论框架,并提出了两个基本准则——简洁性和自洽性,视它们为人工智能的基石。

    2022年 7月 16日
  • 中原基金与澜舟科技成立金融NLP联合实验室,共促金融科技立异

    近日,境内头部基金公司中原基金与NLP/AI范畴领先者北京澜舟科技签署战略协作协议,成立金融NLP(自然语言处置惩罚)联合实验室,协作探索自然语言处置惩罚技巧在金融范畴的使用;协作建立鉴于中原基金投资研究逻辑的舆情NLP本领;协作打造鉴于深度学习和预训练模型的金融行业搜索引擎,同时计划在其他数字化建立、立异技巧协作、交易使用等方面展开协作。中原基金首席数据官陈一昕,澜舟科技创始人兼首席执行官周明博士分别代表双方在北京签约。中原基金首席数据官陈一昕表示,科技立异是发展数字经济的核心源动力。金融行业如何促进科技与金融交易场景的

    2022年 6月 6日
  • ScienceAI发展前瞻:AI与科学较量争论的双向作用

    「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技术」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。

    2022年 7月 11日
  • 279位佳宾、19个论坛议程全公开,第五届未来调理100强大会亮点抢先看!

    从个人健全到群体卫生,从调理服务机构及其家当链到全球调理健全家当生态,调理健全领域正在经历一场前所未有的数字化浪潮,随着生物技术、信息技术、新材料与智能制造三大技术的不断突破翻新与融合,个体的生命健全如何重新理解?纷繁复杂生物世界如何被捕捉、解读、计算?2021年4月16日-18日,第五届未来调理100强大会将以“生命的计算”为主题,在姑苏吴江与大家会面。大会时间:2021年4月16-18日(周五-周日)大会地点:姑苏·吴江·艾美酒店主办单位:动脉网、VB100、

    2021年 4月 6日
  • 综述:药物发觉中的机械进修

    编辑 | 萝卜皮不知不觉,人工智能已经渐渐延伸到了各个领域,医药领域也不例外。来自印度 B V Raju 理工学院的研究人员发表综述,讨论了药物发觉中的机械进修,归纳总结了应用于制药领域的各类机械进修手艺,并指出当前该领域发展的难点,以及未来发展方向。该综述以「Machine Learning in Drug Discovery: A Review」为题,于 2021 年 8 月 11 日发布在《Artificial Intelligence Review》杂志。人工智能概念与许多领域密切相关,如模式鉴别、概率论、

    2021年 8月 31日
  • 硬科技起飞,这家成立仅三年的AI钻研院已颇具国际风范

    摘要:「我认为历史上多数突破性钻研成果的出现都是偶然事件,而钻研机构所有努力都是为了提升这类偶然事件发生的概率。」张宏江说道。他所牵头的「革新型钻研院」,即是一种积极探索,短短3年已展现一派生机。

    2022年 1月 11日
  • 【重磅】世界人工智能大会——2021全世界AI财产人材高峰论坛强势来袭!

    图灵奖得主、中外院士、独角兽企业掌门人云集;智能芯片、类脑智能、双碳经济、未来医院、数字家园等热点话题荟萃;人形机械人、训练芯片等首发展品精彩纷呈;超大规模预训练模型等尖端成果竞逐大奖;还有数字人民币、无人驾驶、智慧商业等鲜活体验。

    2021年 6月 23日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注