CVPR 2021 | 革新奇智首次提出零样本实例联系,助力解决工业场景数据瓶颈难题

对于数据发现、数据粗筛、辅助标注、模型基本能力探索等方面有巨大的提升。

日前,全球计算机视觉顶级会议CVPR(IEEE Conference on Computer Vision and Pattern Recognition)公布了2021年论文接纳结果。来自革新奇智的论文 《Zero-Shot Instance Segmentation》成功被CVPR 2021接纳。

CVPR是计算机视觉领域三大顶级会议(CVPR、ICCV、ECCV)之一。CVPR的论文投稿量近五年来持续增长,根据CVPR官方网站统计,2021年一共收到有效投稿论文超过7500篇,最终1663篇论文被接纳,接纳率为27.3%。在激烈的竞争中,革新奇智投稿的论文脱颖而出,显示革新奇智在计算机视觉领域深厚的革新力。

革新奇智被CVPR2021接纳的论文提出了零样本实例联系,属于零样本物体检测的自然延伸(类似于Mask-RCNN之于Faster-RCNN)。革新奇智在将人工智能应用到商业化实践的过程中,会遇到AI落地过程中特别很是现实的问题,尤其是在面向信息化程度有限,样本复杂多样,正样本数量奇缺或需要特别很是专业标注方式的制造业场景时,其中的数据获取困难、标注成本高等行业难题成为众多AI公司快速商业化的桎梏。革新奇智针对这一难题展开深入研究,获得了突破性的革新结果,该结果对于数据发现、数据粗筛、辅助标注、模型基本能力探索等方面有巨大的提升。

论文解读:

提交版本的摘要如截图,中文意思如下:

深度学习可以利用大量的标注数据来有效地提升实例联系的精度,但是在诸如医疗和工业领域,要么收集足够的数据特别很是困难,要么标注数据需要特别很是专业的知识。从这点出发,我们提出了一个新的使命称之为零样本实例联系(Zero-Shot Instance Segmentation),文中简称ZSI。ZSI的使命要求在训练过程中,只用已经见过并有标注的数据进行训练,但在尝试和推理时能够同时联系出见过和没见过的物体实例。我们先用数学语言对该使命进行描述,然后提出了一个方式来解决ZSI的问题。我们的方式包括零样本检测器(Zero-shot Detector)、语义蒙版头(Semantic Mask Head)、背景感知RPN和背景同步策略。我们同时也提供了在MS-COCO数据集上的基准尝试。实验结果表明,我们提出的方式不仅在ZSI的使命上效果不错,在零样本检测使命上也取得了比之前已有研究更好的表现。我们的方式可以作为一条坚实的基准,能够有效的帮助未来的研究者进行零样本实例联系的研究。

     CVPR 2021 | 革新奇智首次提出零样本实例联系,助力解决工业场景数据瓶颈难题  

论文摘要截图

本篇论文的主要贡献为

1:引出并定义出现实世界中遇到的零样本的实例联系使命。

2:针对零样本实例联系使命,提出应对的算法,该算法是基于背景感知的检测-联系框架。

3:定义了零样本联系(ZSI)自己独特的尝试基准。

4:尝试结果表明在ZSD使命上超越了已有的方式,且在ZSI使命上的结果很有竞争力。

CVPR 2021 | 革新奇智首次提出零样本实例联系,助力解决工业场景数据瓶颈难题

图1:零样本实例联系示例

       在零样本实例联系中,开始只应用标注的数据(标记为seen)作为训练集训练模型,在训练完模型之后,使模型对训练时候见到过(seen)的类型和模型训练的时候没有见到(unseen)的类型分别进行预测。在论文提出的方式中,如图1,餐刀是在训练模型的时候见过的类型,叉子是在训练模型的时候没有见过的类型,通过训练图象模型,同时维持一个餐刀和叉子在语义层面的特色向量来进行联系。

整个零样本实例联系的框架如图2所示。对于一张输入图象来讲,首先要应用骨干网络(backbone),BA-RPN和ROI Align来提取视觉特色和背景的词向量,然后经过Sync-bg模块后分别送入零样本检测器和语义联系头,从而得到实例联系的结果。

CVPR 2021 | 革新奇智首次提出零样本实例联系,助力解决工业场景数据瓶颈难题

图2 零样本实例联系的框架

零样本检测器的设计细节如图3所示,采用了编码-解码结构,在尝试/推理时只是用解码器的TeCVPR 2021 | 革新奇智首次提出零样本实例联系,助力解决工业场景数据瓶颈难题

图3 零样本检测器的设计细节

CVPR 2021 | 革新奇智首次提出零样本实例联系,助力解决工业场景数据瓶颈难题

图4:语义联系头

       语义联系头的结构如图4所示,它是一个encoder-decoder的架构,在训练阶段,应用encoder来把图象的特色编码到语义-文字特色向量。然后应用decoder把上面构建的语义-文字特色向量去重建图象的使命:检测,联系等。

不同模块的作用如表1所示,可以看到,每个模块都对结果有一定的提升,当按照论文提出的方式结合在一起时,达到最佳的效果。

CVPR 2021 | 革新奇智首次提出零样本实例联系,助力解决工业场景数据瓶颈难题

表1: 每个模块的效果

实验结果:

首先如论文开头所说,该方式在Zero-shot Detection的使命(数据集是COCO)上也明显超越了已有的state-of-the-art的结果,达到了新的SOTA。

CVPR 2021 | 革新奇智首次提出零样本实例联系,助力解决工业场景数据瓶颈难题

对于ZSI和GZSI(即零样本实例联系和通用零样本实例联系)使命来讲,论文的结果也特别很是不错,见表3和表4

CVPR 2021 | 革新奇智首次提出零样本实例联系,助力解决工业场景数据瓶颈难题

CVPR 2021 | 革新奇智首次提出零样本实例联系,助力解决工业场景数据瓶颈难题

局限性分析

零样本实例联系致力于解决工业场景中数据少,或者是数据难以发现和标注的问题,可以在没有标注数据的情况下标注出新的类。但正如当前阶段的AI不可能自己学会完全没见过的知识一样,论文提出的方式采用了词向量这个额外特色作为中间媒介,然后把问题的核心转换为如何利用额外特色在特色空间对齐视觉特色和语义信息,并迁移到没有见过的新类上。

革新奇智CTO张发恩(论文作者之一)指出:“革新奇智提出的零样本实例联系算法,是业界首次提出可以应用零样本算法来做实例联系的方式,同时还能够提升业界最新的零样本检测算法的准确率。尤其是对革新奇智来说,深度耕耘智能制造,在很多场景下,视觉系统所产生的数据形式多样,没有统一标准,很难直接应用深度学习的算法模型来应用。这个时候如果能够应用零样本学习的方式达到数据发现、数据粗筛、辅助标注、模型基本能力探索等工作显现的尤为重要。这也是我们做这项研究的初衷。”

革新奇智聚焦智能制造,致力用人工智能革新技术解决复杂的工业生产问题,三年来已服务中冶赛迪、中铁四局、中集、宗申、华电电科院等多家行业龙头企业,积累和沉淀了丰富的行业实践,提出一系列能解决实际问题的革新算法和产品或解决方案,如少样本学习、零样本实例联系、混合级联实例联系算法、物理缺陷模拟等。在智能制造已成为国家战略举措的时代背景下,革新奇智将继续在制造业领域精耕细作,打造更多的AI革新实践。

原创文章,作者:创新奇智,如若转载,请注明出处:https://www.iaiol.com/news/cvpr2021-ge-xin-qi-zhi-shou-ci-ti-chu-ling-yang-ben-shi-li/

(0)
上一篇 2021年 3月 30日 下午6:50
下一篇 2021年 3月 31日 下午4:40

相关推荐

  • 为写论文,明尼苏达大学钻研者向Linux提交多条「恶意代码」,结果整个大学都被Linux封了

    为了写论文,明尼苏达大学的钻研者竟然向 Linux 内核发送了多个有漏洞的代码,结果惹怒了 Linux 社区,不仅禁止整所大学向 Linux 提交代码,还将该校提交的代码还原。

    2021年 4月 22日
  • UT Austin朱玉可主讲,CS391R 2021秋季课程上线,专注呆板人感知与决策

    UT Austin的经典课程CS391R,已经上线了2021秋季版本的全新内容。先收藏,有时间再开始学?

    2021年 9月 7日
  • 翻新工厂李开复:调理赛道挤泡沫,迎来“调理+X”时代

    2022年即将过半,黑天鹅仍旧满天飞,一二级市场跌宕起伏。新冠催化下的调理科技赛道,从火热到冷静,逐渐走入挤泡沫的阶段。在这之中,哪些热点将回归平静,又有哪些趋势能够穿越周期?5月11日,在翻新工厂举办的调理翻新趋势分享会上,翻新工厂董事长兼CEO李开复博士表示,在科技交织越来越频繁的当下,AI和自动化已经成为了底层的“数字基建”,跟各范畴的手艺交织带来了越来越多的翻新突破。而传统的调理大安康赛道也在两大平台手艺的推动下迎来翻新拐点,迎来“调理+X”的落地爆发时代。&

    2022年 5月 11日
  • ICML 2021 | 鉴于拆卸的视频无监视零件宰割

    本文是第三十八届国际机器进修会议(ICML 2021)入选论文《鉴于拆卸的视频无监视零件宰割(Unsupervised Co-part Segmentation through Assembly)》的解读。
    该论文由北京大学陈宝权-刘利斌研究团队与山东大学、北京电影学院未来影像高精尖创新中心合作,提出了一种无监视的图像零件宰割法子,创新性地采用了将零件宰割历程和零件拆卸历程相结合的自监视进修思路,利用视频中的运动信息来提取潜在的零件特性,从而实行对物体零件的有意义的宰割。

    2022年 7月 18日
  • 李沐「下手学深度进修」第二全体CNN本周开课,也邀你挑战他10行代码的比赛问题

    本周六,课程将进入第二全体:卷积神经网络,接待对这全体有疑问的同砚上车进修。

    2021年 4月 23日
  • MIT 10年研究总结数字化转型:仅15%用数字化创建新商业模式;一线职工是转型最大推动者

    2014年,《麻省理工斯隆办理评论》发表了名为《数字化转型的九大因素》的一篇文章,在业界引起轩然大波,不少企业就此认识到数字化转型的重要性。 6年后,数字化转型需求的技巧和方法都发生了很大的变化,作家经过大量的调研更新了数字化转型的因素,使之更契合时代状况,更具有实操性。 本篇文章将数字化转型分为客户体会转型、运营转型、商业模式转型、数字化平台转型,覆盖到企业运作的方方面面。文章表示,数字化转型并不仅仅是技巧上的,还有构造和商业模式上的,尤其强调一线职工在转型中的重要作用。文章同时也提到了大量优

    2020年 12月 18日
  • 1.5K star量,上古老番变4K,B站开源超分辨率算法

    这是 B 站 AI 实验室的最新成果。

    2022年 2月 15日
  • 为什么要纯C说话手搓GPT-2,Karpathy回应网友质疑

    Karpathy:for fun.几天前,前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上实行 GPT-2 训练的项目「llm.c」。llm.c 旨在让大模型(LM)训练变得简单 —— 使用纯 C 说话 / CUDA,不需求 245MB 的 PyTorch 或 107MB 的 cPython。例如,训练 GPT-2(CPU、fp32)仅需求单个文献中的大约 1000 行干净代码(clean

    2024年 4月 11日
  • AAAI 2021 | 投票的滑润复杂度

    本文是第三十五届人工智能大会(AAAI 2021)入选论文《The Smoothed Complexity of Computing Kemeny and Slater Rankings》的解读。

    2022年 7月 18日
  • 智加科技完成总计4.2亿美元新一轮融资

    2021年3月31日,重卡主动驾驭公司智加科技(Plus)继上月宣布2亿美元融资之后,完成新一轮2.2亿美元融资,方源本钱(FountainVest Partners)和锴明投资(ClearVue Partners) 领投,上汽本钱、红杉中国、满帮集团、广达电脑(Quanta Computer Inc.)、卓易本钱(Phi Zoyi Capital)、千禧本钱(Millennium Technology Value Partners)跟投。智加本轮融资总额达到4.2亿美元,其他投资人包含国泰君安国际,CPE等。据了

    2021年 3月 31日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注