NeurIPS 2020 | 微软亚洲研究院论文摘录之方针检测篇

编者按:12月6日至12日,国际人工智能顶级会议 NeurIPS 2020(Conference and Workshop on Neural Information Processing Systems,神经信息处理系统大会)将在线上举办。相比前几年,2020年 NeurIPS 会议不管从论文投稿数量还是接收率都创下了记录:论文投稿数量创历史最高记录,比2019年增长了38%,但接收率却为史上最低。

方针检测(object detection)是计算机视觉中的基础任意,旨在定位图像或视频中某几类物体的坐标位置。本文将对微软亚洲研究院入选 NeurIPS 2020 中的方针检测工作进行介绍。

RelationNet++: Bridging Visual Representation for Object Detection via Transformer Decoder

论文链接:https://arxiv.org/abs/2010.15831

代码链接:https://github.com/microsoft/RelationNet2

现有的各种检测算法通常操纵单一的格式来透露表现物体,比如 RetinaNet 和 Faster R-CNN 中的矩形框、FCOS 和 RepPoints 中的物体中心点、CornerNet 中的角点、以及 RepPoints 和 PSN 中的点集。图1展示了四个主流框架的物体透露表现形式,以及初始化的物体透露表现形式如何形成最终的检测框。可以看到,不同的物体透露表现形式分别操纵其框架的特性来返回最终的检测框。

NeurIPS 2020 | 微软亚洲研究院论文摘录之方针检测篇图1:通用物体检测框架的物体透露表现形式不同的物体透露表现形式都有其优缺点,例如矩形框透露表现的优点是更符合现有的物体标注;中心点透露表现可以避免负责的锚点(anchor)设计,对小物体也更友好;角点透露表现则对于定位更加准确,对大物体地检测更好、更准。

但由于这些不同透露表现在特性提取上的异构性和非均匀性,很难将它们有机地融合在一个检测框架中。因此,微软亚洲研究院的研究员们设计了一个 BVR (Briding Visual Representations) 模块来弥合不同的表达要领,它操纵 Transformer 中的解码器来实现异构的各种物体透露表现之间的联系。

对于一个常见的检测器,其使用的物体透露表现形式被称之为“主透露表现”(master representation),而其它物体透露表现形式被称为“辅助透露表现“(auxiliary representation)。在 BVR 模块中,主透露表现作为查询(query),类似于机器翻译中的方针语言,辅助透露表现作为关键字(key),可类比为机器翻译中的源语言,于是就可以将辅助透露表现的信息融合到主透露表现中,增强主透露表现的特性并最终帮助这一检测器。

BVR 模块可以很方便地插入到主流的检测器中,并广泛提高这些检测器的功能,例如在 Faster R-CNN、RetinaNet、FCOS 以及 ATSS 上,这一模块均带来了 1.5~3.0AP 的功能提高。图2展示了如何将 BVR 模块插入到 RetinaNet 中。

NeurIPS 2020 | 微软亚洲研究院论文摘录之方针检测篇图2:如何将 BVR 模块插入到 RetinaNet 中RetinaNet 中,在基于矩形框的锚点透露表现分支的基础上,额外增加了关于点的预测的头部网络分支,用于预测中心点(center)和角点(corner),并作为主分支的辅助透露表现(auxiliary representation)。在建模主透露表现和辅助透露表现间关系时,需同时考虑表观间的关系,如果将所有的中心点/角点都作为查询输入的话,将会带来极大的计算复杂度。因此,研究员们提出了只操纵得分 top-k 的查询选择策略来降低运算、提高效果,并且操纵空间域插值的方式来计算几何关系,进一步降低运算代价。关于如何将 BVR 插入到 FCOS、Faster R-CNN 以及 FOCS 中,请阅读原论文进行了解。

最后,将 BVR 模块插入到 ATSS 中时,该模型被称之为 RelationNet++,在 COCO test-dev 集合上达到了 52.7 AP 的功能,如表1所示。

NeurIPS 2020 | 微软亚洲研究院论文摘录之方针检测篇

表1:RelationNet++ 在 COCO test-dev 集合上达到了 52.7 AP 的功能

需要注意的是,不久前的 DETR 检测器在视觉领域取得了较大的影响。DETR 主要探讨了 Transformers 应用于物体检测领域的可行性,而 BVR 则关注于提高物体检测器,通过弥合不同物体透露表现的优点,从而取得更高的功能。另一方面,在建模上两种方式也有所不同,BVR 采用的是稀疏健值(key),并证明了其相比稠密健值更加有效且高效。

RepPoints v2: Verification Meets Regression for Object Detection

论文地址:https://arxiv.org/abs/2007.08508

代码地址:https://github.com/Scalsol/RepPointsV2

物体定位在物体检测任意中是非常重要的组成部分,传统的要领如 Faster-RCNN、RetinaNet 采用的是一种“粗考证,细返回”的范式,它们首先会铺设若干预设好大小的锚点,然后再通过计算锚点与真实框之间的偏移来调整锚点的位置与大小来完成物体定位。最近,一些基于中心点的“纯返回”无锚点(anchor-free)要领,如 FCOS、RepPoints 等却取得了与“粗考证,细返回”要领可比,甚至更好的表现,这不禁让人对物体定位中考证步骤的必要性产生怀疑。

但与此同时,有一系列基于“纯考证”的要领也取得了不错的结果,代表要领就是 CornerNet。通过比较可以发现此类要领在产生高质量(AP90)框的能力上要远远高出上述两类要领。受此启发,微软亚洲研究院的研究员们发现通过在 RepPoints 这样一个纯返回的框架上引入合适的考证任意,能够给模型的表现带来很大提高。

NeurIPS 2020 | 微软亚洲研究院论文摘录之方针检测篇

图3:融合要领介绍

如图3所示,研究员们将考证任意作为 RepPoints 的一个旁支,让其高效地与主网络进行特性与结果层面的交互,同时不影响 RepPoints 本身基于点透露表现的特性。本篇论文主要引入了两种考证任意:一是角点考证,判断特性图上的像素点是否是某个真实框的左上(右下)角点;二是框内前景考证,将物体的外接框作为该物体的粗糙掩码,然后将其当做一个语义分割任意来进行学习。

通过引入这两个考证任意和加入与之相适应的修改,可以获得以下几点好处:

首先是更好的特性:考证任意可以提供训练时额外的监督信号并且考证分支的特性可以与返回分支的特性相融合,这种多任意学习的方式和特性融合的方式在 Mask R-CNN 等要领中已经被证明对提高模型表现非常有效。

其次是联合推断:在特性层面的融合之外,考证分支中的角点考证模块可以对返回分支的结果进行进一步的修正,获得更为精确的结果。

最后,由于本篇论文中提出的要领并不受到具体检测框架的限制,因此可以轻易地拓展到其他物体检测器上,同时也适用于其他视觉任意如实例分割。

表2展示了在不同的主干(backbone)网络下,该要领相比于 RepPoints v1 均能够获得2%左右的稳定提高。表3则比较了本文提出的检测器与其他检测器之间的功能。

NeurIPS 2020 | 微软亚洲研究院论文摘录之方针检测篇

表2:稳定的功能提高

NeurIPS 2020 | 微软亚洲研究院论文摘录之方针检测篇

表3:与其他检测器功能比较

下面两个表格展示了在其它基检测器以及实例分割任意上本文要领的适用性。

NeurIPS 2020 | 微软亚洲研究院论文摘录之方针检测篇

表4:在 mmdetection 集合上,考证模块用于 FCOS 要领的实验结果

NeurIPS 2020 | 微软亚洲研究院论文摘录之方针检测篇

表5:在 COCO test-dev 集合上,考证模块用于 Dense RepPoints 要领的实验结果

图4展示了 RepPoints V1 和 V2 的预测结果,其中第一行为 V1 的预测结果,第二行为 V2 的预测结果。可以看到 V2 的结果更加准确。

NeurIPS 2020 | 微软亚洲研究院论文摘录之方针检测篇

图4:RepPoints V1 和 V2 的预测结果比较

Restoring Negative Information in Few-Shot Object Detection

论文链接:https://arxiv.org/abs/2010.11714

代码链接:https://github.com/yang-yk/NP-RepMet

受制于自身数量和样本获取等原因,不同种别的样本数量分布自然地呈现出长尾现象,种别间样本数量差异很大。深度学习模型往往在样本丰富的种别上能够取得较好的效果,而在样本稀缺的种别上表现却不尽如人意。但在自然界中,人类通常可以通过很少数量的样本就能够完成各项分类识别任意。由此,小样本学习应运而生,其方针是操纵样本丰富种别(base classes)提取先验知识并将其推广到弱监督小样本种别(novel classes)的新任意 [1]。

NeurIPS 2020 | 微软亚洲研究院论文摘录之方针检测篇

图5:方针检测示例

由于小样本种别上的样本极其有限,所以如何充分操纵有限的样本信息就成为了小样本方针检测功能提高的关键。现有的小样本方针检测工作(Meta R-CNN [2]、RepMet [3]等)是在样本丰富种别上训练主干网络或嵌入透露表现网络,然后通过小样本种别上的支持集(support set)提取和学习小样本集特性并进行小样本方针检测。然而这只操纵了正样本(positive)的特性,却忽略了负样本(negative)尤其是困难负样本(hard negative)信息在小样本方针检测中的作用。如图6所示,微软亚洲研究院的研究员们将与样本标签 IoU>0.7 的候选框定义为正样本信息,将 0.2<IoU<0.3 的候选框定义为负样本信息,基于 Faster R-CNN,在 RepMet 的基础上,新建了一个 NP-RepMet 的框架,综合操纵正负样本信息可以更好地进行小样本检测。

NeurIPS 2020 | 微软亚洲研究院论文摘录之方针检测篇

图6:样本丰富种别训练过程

在样本丰富种别训练的过程中,RPN 和 DML Embedding Module 后通过两个全连接层分别对每个候选框提取正样本和负样本特性,并根据 IoU 对候选框进行正负样本分类。研究员们通过联合训练的方式,操纵正样本候选框的特性训练其正样本透露表现(图6黄色虚线框),操纵负样本候选框的特性训练其负样本透露表现(图6黄色虚线框)。然后,计算每个候选框的正样本特性与学习到的每个种别正样本透露表现的最小距离,计算每个候选框的负样本特性与学习到的每个种别负样本透露表现的最小距离。最后,综合操纵这两个距离,并将距离通过概率度量模块转换为分类概率进行每个候选框的分类。

NeurIPS 2020 | 微软亚洲研究院论文摘录之方针检测篇

图7:小样本种别测试过程

小样本种别的测试过程如图7所示。首先操纵有标签支持集上的样本,通过 DML Embedding Module 后全连接层提取到的特性,根据 IoU 进行小样本种别正样本透露表现和负样本透露表现的替换。对于查询集(query set)上的测试数据,其计算过程如上图红色箭头所示,与训练过程相同。

与 RepMet 和 Meta R-CNN 保持一致,研究员们分别在 ImageNet-LOC 和 Pascal VOC 上进行了实验,实验结果如下:

NeurIPS 2020 | 微软亚洲研究院论文摘录之方针检测篇

表6:在 ImageNet-LOC 上的实验结果

NeurIPS 2020 | 微软亚洲研究院论文摘录之方针检测篇

表7:在 Pascal VOC 上的实验结果

可以看到,通过综合操纵正负样本信息,小样本方针检测能够取得较大功能提高。相比于 RepMet 和 Meta R-CNN,NP-RepMet 在 5-way 1-shot 条件下,于 ImageNet-LOC 和 Pascal VOC 数据集上的 mAP 均取得了10%以上的提高。 

参考文献:

[1] Wang Y, Yao Q, Kwok J T, et al. Generalizing from a few examples: A survey on few-shot learning[J]. ACM Computing Surveys (CSUR), 2020, 53(3): 1-34.[2] Yan X, Chen Z, Xu A, et al. Meta R-CNN: Towards general solver for instance-level low-shot learning, CVPR 2019.[3] Karlinsky L, Shtok J, et al. RepMet: Representative-based metric learning for classification and few-shot object detection, CVPR 2019.

AI

模型听人讲几句就能学得更好?斯坦福提出用谈话表明辅助进修

2020-12-1 11:12:00

AI

安谋华夏首款ISP处置惩罚器“小巧”面世,IP产物线逐渐完善

2020-12-7 16:29:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索