最大数据集、多使命覆盖,阿里达摩院发布首个大规模华文多模态评测基准MUGE

在计算机视觉范围甚至人工智能的发展历程中,ImageNet对于整个范围的技术进步具有至关重要的作用。随着多模态学习成为当下的新热点,为了通过大规模数据集建设和全方位模型能力评测推动多模态范围的发展,阿里达摩院推出MUGE(全称Multimodal Understanding and Generation Evaluation Benchmark)评测基准。该基准是由达摩院联合浙江大学、阿里云天池平台联合发布,中国计算机学会计算机视觉专委会(CCF-CV专委)协助推出的首个大规模华文多模态评测基准。其拥有全球最大规模的华文多模态评测数据集,覆盖多种类型的使命,包括图文形貌、基于文本的图象天生、跨模态检索等。MUGE的推出旨在解决当前华文多模态范围下游使命数据集匮乏的问题,并且为广大研究者提供权威平台,从了解能力和天生能力两大角度去衡量算法模型的有效性。

图片

背景近年来,大规模神经网络模型以及预训练等技术的成功实践推动着计算机视觉和自然语言处理等范围快速发展,同时也推动了多模态表征学习的研究。2020 年 Jeff Dean 就曾指出,多模态研究将会是未来研究一大趋势。在国内,目前阿里巴巴达摩院智能计算实验室也在深度探索华文多模态预训练及超大规模预训练,近期相继推出了百亿、千亿、万亿参数和十万亿参数模型 M6 模型 [1][2][3][4],目前是全球规模最大的预训练模型,并已将其应用到各大下游使命,广泛落地到搜索、推荐、服饰设计、智能文案等真实场景中。同时,达摩院联合阿里云发布了 M6 预训练平台(https://m6.aliyun.com),将大模型的能力以服务的形式对外提供,同时 M6 预训练平台是目前下游使命覆盖最广泛的平台,简洁易用,数行代码即可执行微调和预测等功能。然而,目前多模态范围的评测基准和数据集多以英文为主,如 MSCOCO 的 Image Captioning [5],VQA [6][7],textVQA,VCR 等,并且缺乏一个统一的评测基准让研究人员可以全面评测自己的模型在不同场景以及不同使命类型的表现。当前华文范围的多模态公开数据集和榜单更是乏善可陈。考虑到华文多模态范围的蓬勃发展,达摩院智能计算实验室认知智能团队推出了大规模华文多模态评测基准 MUGE,拥有当前最大规模的华文多模态评测数据集,覆盖多种类型的使命,包括图文形貌、基于文本的图象天生、跨模态检索等,对模型展开了全方位的评测,帮助研究人员对自己的模型得到更好的了解。MUGE 介绍MUGE 全称是 Multimodal Understanding and Generation Evaluation Benchmark,是达摩院联合浙江大学、阿里云天池平台共同发布的多模态数据集,中国计算机学会计算机视觉专委会协助,旨在推动多模态范围的发展,尤其预训练和下游使命应用等。首期主要开放华文多模态相关下游使命数据集和评测榜单,旨在帮助华文多模态研究人员全方位评估算法模型。MUGE 将实现多场景多使命的覆盖,其中包括了解类使命,如跨模态检索、跨模态分类等,以及天生类使命,如图文形貌、基于文本的图象天生等,研究人员能够从了解能力和天生能力两大角度去评估算法模型。首期开放了包括了如下 3 个使命:E-Commerce IC(Image Caption)图象形貌天生是一项经典的多模态使命,使命目标是根据一张图象天生相应的文字形貌,要求天生的形貌须如实反映图中的物体以及关键细节。电商范围有着众多的商品图片,将图象形貌技术应用于电商范围,为每个商品天生一段富含吸引力的形貌,对于吸引用户的点击、提高转化率有着重要的意义。本次发布 E-Commerce IC 数据集涵盖了服装、食品、化妆品、3C 数码配件等众多商品类目,所有数据均来源于真实的淘宝电商场景。其中,商品对应的文字形貌由商家根据商品特性来撰写,不同文案间的风格差异很大,这给图象形貌的天生带来了很多挑战。E-Commerce IC 共包含 5w 条训练数据和 5k 条验证集数据,同时提供 1w 张图片用于在线评测,是目前业界最大的华文电商 Caption 数据集。下面是两个样例:例子 1:

输入(商品图片):

图片

输入(商品文案形貌):使用原始北欧风格,崇尚自然,以木色、黑色、白色作为整体色调,给人舒适宁静的感觉,轻松就餐,才能留住好食光,在极简风的北欧餐厅中,尽情享受美食。

例子 2:

输入(商品图片):

图片

输入(商品文案形貌):西装印花裙的两件套,知性中又有带着优雅洒脱。雅致的印花裙邂逅西服,轻松打造精致的职场女神。脱掉外套依然美丽优雅,不失为明智的穿搭。V 领的设计更显女性的性感魅力。如行走的时装画册精致,有品位更具有风度。

E-Commerce T2I(Text to Image):文本到图象天生是一项具有挑战性的使命,要求模型具有在跨模态了解的基础上天生图象的能力。使命目标是根据一段文本形貌,天生符合相应形貌的图象,同时要求图象清晰且逼真。电商范围有着众多的商品图片,将文本到图象天生技术应用于电商范围,对于商品上新、设计、分发,减少商家运营成本,提高用户体验有着重要的意义。本次发布的 ECommerce-T2I 数据集涵盖了服装、饰品、化妆品内的多个商品类目,所有数据均来源于真实淘宝电商场景。整个数据集由训练集、验证集和测试集组成。其中训练集有 9w 张图片,验证集和测试集各有 5k 张。此外,本数据集内的图片均为白底图,选手无需额外的精力放在背景天生上,主要考查模型对商品文本的了解和天生能力,提高物体的天生质量。下面是两个样例:例子一:

输入(文本):绵羊毛商务休闲西服套装

输入(天生图象):

图片

例子二:

输入(文本):减震透气跑鞋

输入(天生图象):

图片

Multimodal Retrieval Dataset多模态检索评价模型进行图文了解和匹配的能力,是电商场景中满足用户需求、促成点击交易不可缺少的一环。在此次使命中,我们准备了来自于淘宝电商平台的真实搜索 query 及商品图,要求模型从给定的商品池中检索出与搜索 query 相匹配的商品(样例如下图)。为了更好评价模型跨模态了解的效果,我们此次不公开商品的标题以及其他信息,要求模型仅基于商品图片进行检索召回,具有一定的挑战性。此次公开的电商图文检索数据集由训练集、验证集和测试集组成,其中训练集包含 25w 搜索 query – 商品图构成的图文对,涵盖约 12w 商品图片。对于验证集和测试集,我们各准备了 5k 搜索 query 和 3w 候选商品图片。数据集类目涵盖广泛,涉及服装、家居、电子、化妆品等多个范围,是目前最大的华文全范围电商图文检索数据集,对模型的泛化能力提出了考验。下面是两个样例:例子 1:

输入(Query):纯棉碎花吊带裙

输入:商品图片

图片

例子 2:

输入(Query):北欧轻奢边几

输入:商品图片

图片

MUGE 挑战榜MUGE 的提出旨在解决当前华文多模态范围下游使命数据集匮乏的问题,并且为广大研究者提供平台和评测基准去衡量算法模型的有效性。此外,相较于传统榜单,MUGE 的覆盖面更全,涵盖了解和天生两大类使命,并开创性地将基于文本的图象天生纳入其中。未来,MUGE 也会持续地扩增更多的多模态使命及数据规模,进一步为研究人员和开发者提升算法模型效果而提供支持。MUGE 目前已经在阿里云天池平台开放,感兴趣的研究者们可以访问如下链接进入 MUGE leaderboard 参与挑战,平台会在每个月的月底评出榜单 Top8 选手,并赠予天池定制礼品!MUGE 挑战榜地址:https://tianchi.aliyun.com/muge参考资料[1] Lin, J., Men, R., Yang, A., Zhou, C., Ding, M., Zhang, Y., Wang, P., Wang, A., Jiang, L., Jia, X., Zhang, J., Zhang, J., Zou, X., Li, Z., Deng, X., Liu, J., Xue, J., Zhou H., Ma, J., Yu, J., Li, Y., Zhou, J., Tang, J., & Yang, H. (2021). M6: A chinese multimodal pretrainer. Proceedings of the 27th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.[2] Yang, A., Lin, J., Men, R., Zhou, C., Jiang, L., Jia, X., Wang, A., Zhang, J., Wang, J., Li, Y., Zhang, D., Lin, W., Qu, L., Zhou, J., & Yang, H. (2021). M6-T: Exploring Sparse Expert Models and Beyond. ArXiv, abs/2105.15082.[3] Lin, J., Yang, A., Bai, J., Zhou, C., Jiang, L., Jia, X., … & Yang, H. (2021). M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining. arXiv preprint arXiv:2110.03888.[4] Zhang, Z., Ma, J., Zhou, C., Men, R., Li, Z., Ding, M., … & Yang, H. (2021). M6-ufc: Unifying multi-modal controls for conditional image synthesis. NeurIPS 2021.[5] Chen, X., Fang, H., Lin, T., Vedantam, R., Gupta, S., Dollár, P., & Zitnick, C.L. (2015). Microsoft COCO Captions: Data Collection and Evaluation Server. ArXiv, abs/1504.00325. [6] Agrawal, A., Lu, J., Antol, S., Mitchell, M., Zitnick, C.L., Parikh, D., & Batra, D. (2015). VQA: Visual Question Answering. International Journal of Computer Vision, 123, 4-31.[7] Goyal, Y., Khot, T., Summers-Stay, D., Batra, D., & Parikh, D. (2017). Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 6325-6334.

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/zui-da-shu-ju-ji-duo-shi-ming-fu-gai-a-li-da-mo-yuan-fa-bu/

(0)
上一篇 2021年 12月 21日 下午3:00
下一篇 2021年 12月 21日 下午3:15

相关推荐

  • 中科院图协作进修模型,从空间分辨转录组学数据中阐明肿瘤异质性

    编辑 | 萝卜皮空间解析转录组学 (SRT) 技术使钻研职员可以或许获得对构造结构和细胞发育的新见解,尤其是在肿瘤中。然而,缺乏对生物背景和多视图特点的计算开发严重阻碍了构造异质性的阐明。在这里,中国科学院的钻研团队提出了 stMVC,这是一种多视图图协作进修模型,它在通过注意力分析 SRT 数据时集成了构造学、基因表白、空间地位和生物学背景。具体来说,采用半监督图注意力自动编码器的 stMVC 分别进修构造学相似性图或空间地位图的特定视图表示,然后在生物上下文的半监督下通过注意力同时整合两个视图图以获得鲁棒表示。st

    2022年 10月 14日
  • 又一全新汽车品牌来了!瞄上「安康调理」场景,已获东风、长江等投资

    作者 / 曹锦10月30日,前大众团体高管苏伟铭的创业项目,得到进一步揭晓。由其担任创始人兼董事长的电动汽车品牌——BeyonCa正式亮相,同时还展示了代表品牌定位的概念车Gran Turismo Opus 1(GT Opus 1)。BeyonCa计划于明年春天宣布品牌中文名,第一辆量产车型将于2024年下线。大家对于BeyonCa的最初认知,无疑就是其核心人物苏伟铭。他曾在大众汽车任职16年,在2021年离职时,他位居大众汽车团体执行副总裁,也是团体内职位最高的华裔高管;此后,苏伟铭也曾担任雷诺中国CEO,而他创

    2022年 10月 31日
  • 百分点认知智能实验室:智能对话技术应用和实践

    编者按智能对话系统因其巨大的潜力和商业价值受到越来越多研究者和从业者的关注,对话的主要种类囊括闲谈型、常识型、任意型、阅读理解型等,目前已经广泛应用在智能客服、智能音箱、智能车载等众多场景。近年来,智能对话还出现了新的应用场景,例如可以将自然语言转换为各种程序性语言,如SQL,从数据库中找到相应的答案,让用户和数据库的交互变得更加直接和方便。为此,Datafun发布了百分点首席算法科学家苏海波署名文章,文中主要介绍了智能问答中的成绩语义等价模型、常识图谱问答模型、NL2SQL模型,以及百分点在智能问答领域的实践案例

    2021年 3月 10日
  • 中科大吴枫获IEEE CAS最高荣誉奖项,11位学者获ACM四大手艺奖项

    5 月 24 日,IEEE 电路与体系(CAS)学会将 2021 年度 IEEE CAS Mac Van Valkenburg 奖授予中国科学手艺大学吴枫教授,以表彰他对「多媒体非均匀编码和通信的孝敬」,时隔不久,5 月 26 日,计算机协会(Association for Computing Machinery)宣布了四项著名手艺奖的获得者。

    2021年 5月 27日
  • 伯克利大神一人投中16篇:ICLR 2021论文接管统计出炉

    ICLR 2021 会议中投稿量和论文接管量最多的作家和机构都有哪些?这个 GitHub 项目做了一个统计。

    2021年 1月 19日
  • Call for Papers | IEEE国际聚会较量争论社会科学与复杂系统格外专题征文

    DSAA是由 IEEE、ACM、ASA 和 CCF 联合支持的首屈一指的数据科学聚会。

    2022年 3月 30日
  • 优必选科技四上春晚,“垦荒牛”机器人展现硬科技革新力量

    2月11日,在央视2021牛年春晚的舞台上,优必选科技全新研发的首款大型四足机器人化身“垦荒牛”,与刘德华、王一博、关晓彤等一起呈现了科技感十足的创意表演《牛起来》。它们以拼搏进取的深圳 “垦荒牛”为设计原形,融合祥云及华夏红等传统文化元素,以绚丽的灯光及机械结构诠释科技美感,伴随激昂的音乐奔腾向前。从2016年春晚540台Alpha机器人登台齐舞到2018年春晚24台Jimu汪汪组队拜年,再到2019年春晚6台Walker机器人与演员同台表演歌舞《青春畅想》……优必选科技已经四次登上春晚舞台,展示华夏人工智能和机

    2021年 2月 12日
  • TensorFlow 2.4来了:上线对分布式训练和混合精度的新功能反对

    今天,谷歌正式发布了 TensorFlow 2.4,带来了多项新特性和功能改进。

    2020年 12月 15日
  • 图神经网络的困境,用微分多少和代数拓扑解决

    微分多少和代数拓扑在主流机器进修中并不常见。在本系列文章中,作者展示了如何使用这些规模的工具从头解释图神经网络并解决一些常见困境。

    2022年 3月 27日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注