ICCV 2021|搀杂场景标的辨别——北航、软件所、科大讯飞提出X光安检场景下危险品检测基准(已开源)

搀杂视觉场景下的标的辨别恣意有很多亟待解决的问题,也一直是学术界研究的焦点。计算机视觉顶会ICCV 2021接收了一篇由北京航空航天大学刘祥龙教授团队、中国科学院软件研究所和科大讯飞共同完成

搀杂视觉场景下的标的辨别恣意有很多亟待解决的问题,也一直是学术界研究的焦点。计算机视觉顶会ICCV 2021接收了一篇由北京航空航天大学刘祥龙教授团队、中国科学院软件研究所和科大讯飞共同完成的工作,该工作以X光安检场景下的危险品检测为例,对搀杂场景下的遮挡干扰、小标的问题进行了探索,建立了一个大规模的搀杂场景标的检测基准,并提出了侧张扬模型。

ICCV 2021|搀杂场景标的辨别——北航、软件所、科大讯飞提出X光安检场景下危险品检测基准(已开源)

由高性能计算和大规模数据驱动的基于深度学习的计算机视觉相关技术快速发展,在物体辨别、标的检测、语义分割等恣意上取得了巨大成功,并在公共安全、国防安全、金融经济等领域得到了广泛应用。然而,与传统视觉恣意的训练样本不同,真实开放的视觉场景往往较为搀杂,诸如危险品安检、医学影像分析等,样本中广泛存在着标的干扰、视角欠佳、环境变化、取样困难等诸多难题。探索解决开放场景下的视觉恣意难题有助于推动计算机视觉相关技术的发展,使得人工智能更好地服务人类社会。

近年来,国内外学术界高度重视以深度学习为基础的计算机视觉算法在搀杂视觉场景下的可靠性和鲁棒性。然而,搀杂场景下样本的的标的辨别恣意目前不仅缺乏鲁棒高效的模型,并且缺乏高质量且大规模的评价基准。研究者们想要利用深度学习在搀杂场景下的标的辨别恣意上取得进展,需要同时在训练模型和评价基准两个方面取得突破。

在本文中,来自北航、软件所、科大讯飞的研究人员以X光安检场景下危险品检测恣意为例探究搀杂场景下的标的辨别,建立了包含4.5万多张训练样本、10万多个被专业标注的危险品实例的大规模X光危险品检测恣意评价数据集HiXray。在评价基准的基础上,进一步提出了侧张扬模型(Lateral Inhibition Module),从关键特性加强和非关键特性张扬的两个方向来缓解搀杂场景带来的辨别性能下降的问题。

一、HiXray 评价基准

HiXray数据集包含8类常见的机场禁止携带的物品(不带电芯充电宝、带电芯充电宝、化妆品瓶、水杯、笔记本电脑、手机、平板电脑、非金属打火机)共45364张真实场景下的X射线图像,对于HiXray数据集中每种物品,本文将其与对应物体的自然图像进行共同展示,样例如图2所示:

ICCV 2021|搀杂场景标的辨别——北航、软件所、科大讯飞提出X光安检场景下危险品检测基准(已开源)

图 1 危险品实物和其在X光下的成像对应图

类别的实例数量以及训练集和测试集的划分如表1所示:

HiXray

危险品种类

不带芯充电宝

带电芯充电宝

水杯

电脑

手机

平板电脑

化妆品

非金属打火机

训练集

9919

6216

2471

8046

43204

3921

7969

706

测试集

2502

1572

621

1996

10631

997

1980

177

合计

12421

7788

3092

10042

53835

4918

9949

883

表 1 HiXray数据集的类别实例数量分布表

二、侧张扬模型(Lateral Inhibition Network)

和传统图像上的标的辨别不同,搀杂视觉场景下的标的往往带有强烈的干扰以及个体特性不强等特点,这些特点给标的辨别带来难度。作家受在神经生物学中侧张扬体制(双向传递边际增强体制张扬了动作电位从兴奋的神经元向临近神经元的横向扩散)的启发,设计了侧张扬网络(Lateral Inhibition Network)。该网络包括一个双向传递架构(Bidirectional Propagation),从而自适应的过滤由违禁物品的邻近区域产生的噪声信息。此外,受神经生物学中侧张扬会产生刺激比拟从而增加感官知觉的启发,侧张扬网络还包括轮廓特性加强模块——边际激活(Boundary Activation),该模块从每一层的四个方向加强鸿沟信息,并将它们聚集成一个整体,从而激活鸿沟信息。

ICCV 2021|搀杂场景标的辨别——北航、软件所、科大讯飞提出X光安检场景下危险品检测基准(已开源)

图 2Lateral Inhibition Network的整体框架图

1.双向传递架构(Bidirectional Propagation)

对于双向传递架构左边的自上而下的密集路径而言,它从更高级别金字塔上采样空间较粗但语义较强的特性地图,能够表征更高分辨率的特性。在卷积层中通过侧向连接的过程中,这些特性图得到增强。每个侧向连接融合了来自卷积层和自上而下路径的相同空间大小的特性图。低卷积层的特性图语义层次较低,但由于次采样次数较少,其激活定位更加准确。进一步的,作家构建了密集的连接,以确保滤波的效果最好,公式如下:

ICCV 2021|搀杂场景标的辨别——北航、软件所、科大讯飞提出X光安检场景下危险品检测基准(已开源)

其中,x为输入的样本,特性A为双向传递架构左边输出特性。

进一步地,作家利用边际激活模块对特性A进行加强(加强过程在下一小节叙述),就得到了特性B。类似于左边,双向传递架构右侧对轮廓特性加强后的特性B进行自下而上地信息传递,公式如下:

ICCV 2021|搀杂场景标的辨别——北航、软件所、科大讯飞提出X光安检场景下危险品检测基准(已开源)

2.边际激活模块(Boundary Activation)

如图3所示,捕获对象鸿沟的关键是确定一个位置是否是鸿沟点。受原理图的启发,作家设计了鸿沟聚合模块,以感知鸿沟及其周围环境的突然变化。为了模拟双向传递边际增强产生刺激比拟的体制,从而增加感官知觉,作家在每一层输出的特性图内加强四个方向的鸿沟信息,即将它们聚集成一个整体形状来激活鸿沟信息。

ICCV 2021|搀杂场景标的辨别——北航、软件所、科大讯飞提出X光安检场景下危险品检测基准(已开源)

图 3边际激活模块的原理图

经双向传递架构左边的输出特性A,经边际激活模块操作之后,就成为了特性B,公式如下:

ICCV 2021|搀杂场景标的辨别——北航、软件所、科大讯飞提出X光安检场景下危险品检测基准(已开源)

三、试验

作家在自己所提的HiXray数据集以及已开源的OPIXray数据集上做了大量的试验来全面地评价所提模型和基准,证明了所提出的侧张扬模型(Lateral Inhibition Network)能够出色地解决搀杂视觉场景中的X光安检场景下的危险品标的辨别的问题。表2是Lateral Inhibition Network在HiXray数据集和OPIXray数据集上相比于流行检测算法的表现。

ICCV 2021|搀杂场景标的辨别——北航、软件所、科大讯飞提出X光安检场景下危险品检测基准(已开源)

表2  和不同检测算法比拟试验表

可以看到,SSD、FCOS、YOLO-v5等基础检测算法搭载了侧张扬体制后,均有一定程度的提高,提高幅度大于已开源的该恣意下的DOAM模型。

同时,由于双向传递架构是一种具有密集连接体制并且对特定的特性进行了增强的特性金字塔体制,因此作家选择了SSD为基础模型(因为SSD模型中不包含特性金字塔结构),将侧张扬体制同经典的特性金字塔体制FPN和双向的PANet体制进行了比较。试验结果如表3所示。

ICCV 2021|搀杂场景标的辨别——北航、软件所、科大讯飞提出X光安检场景下危险品检测基准(已开源)

表3 和不同的特性金字塔体制比拟试验表

可以看到,侧张扬体制由于其他特性金字塔体制。同时,作家还对模型进行了分离试验,验证了各个子模块的有效性。试验结果如表4所示。

ICCV 2021|搀杂场景标的辨别——北航、软件所、科大讯飞提出X光安检场景下危险品检测基准(已开源)

表4消融试验表

这其中,SP指的是双向传递架构的左边。

最后,作家对试验效果进行了可视化试验(如图4所示),并且还专门对边际激活模块对边际特性加强的效果进行了可视化试验(如图5)。

ICCV 2021|搀杂场景标的辨别——北航、软件所、科大讯飞提出X光安检场景下危险品检测基准(已开源)

图4 可视化效果比拟图

ICCV 2021|搀杂场景标的辨别——北航、软件所、科大讯飞提出X光安检场景下危险品检测基准(已开源)

图5 轮廓特性加强效果比拟图

四、总结

搀杂场景下样本的的标的辨别恣意目前不仅缺乏鲁棒高效的模型,并且缺乏高质量且大规模的评价基准。本文作家提出的HiXray数据集包含的X光安检场景下的危险品图片,为搀杂场景下的标的辨别提供了一个很好的评价基准。在评价基准的基础上,进一步提出了侧张扬模型(Lateral Inhibition Module),从关键特性加强和非关键特性张扬的两个方向来缓解搀杂场景带来的辨别性能下降的问题。本文聚焦于搀杂场景下的标的辨别,在评价基准和训练模型和两个方面取得突破,促进了深度学习在真实开放场景下的应用发展。

五、传送门

会议论文:https://openaccess.thecvf.com/content/ICCV2021/html/Tao_Towards_Real-World_X-Ray_Security_Inspection_A_High-Quality_Benchmark_and_Lateral_ICCV_2021_paper.html

开源链接:

https://github.com/HiXray-author/HiXray

六、关于作家

ICCV 2021|搀杂场景标的辨别——北航、软件所、科大讯飞提出X光安检场景下危险品检测基准(已开源)

论文第一作家陶仁帅,目前在北京航空航天大学攻读博士学位。主要研究方向为搀杂场景下的标的辨别,包括去遮挡、域适应、小样本等,已在CVPR、ICCV、ACM MM等国际顶级计算机视觉与多媒体会议上发表多篇论文,获2021年度博士研究生国家奖学金。

原创文章,作者:特邀精选,如若转载,请注明出处:https://www.iaiol.com/news/27918

(0)
上一篇 2022年3月1日 下午3:19
下一篇 2022年3月2日 下午2:30

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注