3D 点云广泛应用于 3D 鉴别技术中。一些特别的应用领域往往对 3D 点云鉴别的安全性有更高的要求,如自动驾驶、医疗图像处理等。学界目前对点云安全性的研讨集中在对抗攻击的持重性。与对抗性攻击相比, 自然的失真和扰动在现实世界中更为常见。然而目前还没有关于 3D 点云针对失果然持重性的系统性研讨。
论文地址: https://arxiv.org/abs/2201.12296
项目主页: https://sites.google.com/umich.edu/modelnet40c
开源 Github: https://github.com/jiachens/ModelNet40-C
近日,来自密歇根大学等机构的研讨者提出了一个新颖且全面的数据集 ModelNet40-C ,以系统地尝试以及进一步提高点云鉴别模型对于失果然持重性。ModelNet40-C 包含 185000 个点云数据,它们来自 15 种分歧的点云失真类别,且每个类别有 5 种分歧的严重程度。这些点云失真分为 3 大类:密度 (density) 失真、乐音 (noise) 失真、以及转换 (transformation) 失真。实验表明,目前具有代表性的 3D 点云鉴别模型(比如:PointNet、PointNet++、DGCNN 以及 PCT)在 ModelNet40-C 上的错误率比在原本 ModelNet40 数据集上的错误率高出超过 3 倍,如下图 1 所示。这证明了点云深度模型框架仍然非常容易受到常见失果然影响。
图 1. 深度点云鉴别代表性模型在 ModelNet40 和 ModelNet40-C 数据集上的错误率。根据这一发觉,该研讨进一步做了大量的尝试去探索分歧模型架构,数据加强,以及自顺应方式对于失真持重性的影响。研讨者根据实验结果总结了多个发觉来帮助 3D 点云鉴别技术的开发者们设计更持重的模型以及训练方案。例如,研讨者发觉基于 Transformer 的点云鉴别架构在提高模型对于失果然持重性有很大的优势;分歧类别的数据加强策略对各种类别的失真有分歧的优势;尝试时自顺应方式对一些很严重的失真有很好的持重性,等等。ModelNet40-C 数据集建立
图 2. ModelNet40-C 数据集失真类别图示。失真持重性在 2D 图像上已经得到广泛关注,其中 CIFAR-C 和 ImageNet-C 通过模仿分歧天气,噪声,以及模糊来建立失真数据集。然而该研讨的研讨者发觉 3D 点云的失真与 2D 图像有根本的分歧,原因在于点云数据结构更加灵活且不规则,例如,一个点云内点的数量是可以改变的,同时 3D 点云位置的改变也很容易影响语义信息。研讨者提出 3 点建立 ModelNet40-C 的原则:1) 语义不变性、2) 失真切实性、3) 失真多样性来保证数据集的质量。ModelNet40-C 的失真分为密度 (density) 失真,乐音 (noise) 失真,以及转换 (transformation) 失真三类。密度失真包括 “遮挡”,“激光雷达 (LiDAR)”,“全部密度上升”,“全部密度下降”,以及“全部缺失” 5 种,它们模仿了现实中分歧传感器天生点云密度的分歧特征,例如,“遮挡” 模仿了传感器在扫描 3D 物体时受角度限制只能天生一部分点云。乐音失真包括 “均匀分布”,“高斯分布”,“脉冲”,“上采样”,以及“背景” 乐音,他们模仿现实中传感器天生时以及程序预处理过程中不可避免的数字噪声与误差。转换失真包括“旋转”,“错切”,“自由形变”,“径向基形变”,以及“反径向基形变”,前两种模仿了在处理点云数据时非对准状态以及动态采集数据时的失真,后三种则代表了 AR/VR 游戏以及天生模型 (GAN) 产出的点云失真。
图 3. 在 ModelNet40-C 上 6 个模型的平均混淆矩阵。研讨者阐述了这些失真是点云应用中非常常见的,并且保证了天生的数据集仍然保持了原有的语义,如图 2 所示。图 3 展示了在 ModelNet40-C 上 6 个模型的平均混淆矩阵,对角线上的比重依然很高,这同样交叉验证了 ModelNet40-C 的语义不变性。ModelNet40-C 上基准尝试 (Benchmarking) 结果与分析在建立 ModelNet40-C 之后,该研讨进行了大批量的基准尝试,包含分歧模型架构设计,分歧数据加强方式,以及分歧自顺应方式的实验设置。分歧失真以及模型架构设计对比
表 1. 在标准训练下分歧模型在 ModelNet40-C 上的错误率。如表 1 所示,该研讨在 PointNet, PointNet++, DGCNN, RSCNN, PCT, 以及 SimpleView 六个模型上进行了基准尝试。研讨者总结了一些发觉: 1) “遮挡”和 “激光雷达” 给点云鉴别模型造成了极高的错误率。2) 小角度的 “旋转” 仍然会很大程度影响点云鉴别性能。3) “背景”和 “脉冲” 噪声给大部分模型带来了意想不到的挑战。研讨者进而这些发觉也可以反映到模型设计上。1) PointNet 对密度失真较为持重,但是整体上缺表现不佳。这是因为 PointNet 只编码全局特征而没有全部特征,这种特性一直以来被认为是 PointNet 的主要缺点。但是密度失真是全部特征损失,这反而对 PointNet 的影响有限,但是这种机制确实导致 PointNet 对其他的失真类别非常敏感。研讨者建议今后对 PointNet 的使用应该考虑应用场景。2) 球查询 (ball query) 的聚类方式对 “背景” 和“脉冲”噪声更加持重。这是因为球聚类相对于 kNN 聚类限定了最大聚类半径,这样的设计有助于帮助模型去除相差很远的异常值的影响。3) 基于 Transformer 的点云鉴别模型对转换失真更加持重,这是因为自注意力 (self-attention) 机制能够使得模型能够学习到更持重以及全面的全局特征,而且 Transformer 架构也实现了更大的模型容量,使得其对于全局的形变失真更持重。分歧数据加强方式对比
表 2. 在标准训练下分歧模型在 ModelNet40-C 上的错误率。如表 2 所示,该研讨采用 PointCutMix-R, PointCutMix-K, PointMixup, RSMix, 以及对抗训练 (Adversarial Training) 作为 5 种数据加强的训练方式。研讨者发觉: 1) 这些数据加强的方案虽然对于干净数据集上对模型性能的提升有限,但是都显而易见地提高了模型在点云失真场景下的持重性。2) 没有一种数据加强方案可以主宰所有的失真类别。PointCutMix-R 对于乐音失果然持重性很好因为它随机采样两个分歧类别的点云并直接合成,所以天生的点云是两个已有点云降采样的“重叠”,以至于每个降采样的点云对于另一半来说都相当于乐音失真。所以这样的数据加强模式可以极大地提高乐音失果然持重性。PointMixup 对转换失果然表现较好因为 PointMixup 是对两个分歧类别的点云做最小距离配对并“插值” 采样,所以天生的点云的形状介于两种种类之间,这种于转换失真中的整体形变接近,所以其对转换失真更为持重。RSMix 则对密度失真持重,虽然 RSMix 整体思路与 PointCutMix 接近,但其严格规定刚性合成,即两个分歧类别的点云采样过后在 3D 空间仍然是独立的,没有“叠加”。这样的合成相当于两个独立的全部缺失的点云,所以其对密度失果然持重性较好。分歧自顺应方式对比
表 3. 在标准训练下分歧模型在 ModelNet40-C 上的错误率。该研讨首次将尝试时自顺应方式应用到点云鉴别的任务中来。研讨者采用 BN 和 TENT 方式去更新模型的批标准化层 (BatchNorm Layer)的参数,他们发觉: 1) 尝试时自顺应方式可以稳定地提升模型的持重性,但总体上并没有数据加强的效果好;2) 尝试自顺应方式对一些困难的失真类别效果出乎意料的好。例如,平均而言,TENT 有助于在“遮挡” (错误率 = 47.6%),“激光雷达 (错误率 = 54.1%), 和“旋转” (错误率 = 19.8%) 失真类别下实现最强的持重性,分别比最佳数据加强方式高出 6.7%,1.9%,和 7.9%。这证明了自顺应方式在提高点云鉴别失真持重性的巨大潜力。研讨者最终将数据加强中整体表现最好的 PointCutMix-R 与自顺应方式 TENT 结合,发觉基于 Transformer 架构的 PCT 模型达到了目前最好的整体失真持重性 (错误率 = 13.9%)。这一发觉同时验证了 Transformer 在模型持重性的成功,与之前的研讨 (Bai, Yutong, et al. ,2021) 在 Transformer 对 2D 图像的结论基本吻合。总结该研讨提出了一个新颖并且全面的 3D 点云鉴别持重性分析数据集 ModelNet40-C。研讨者提出并建立了了 75 种分歧的失真类别和程度来模仿真实场景中由于物理限制、传感器准确度限制、以及处理过程中造成的点云失真和损坏。ModelNet40-C 包含 185000 个分歧的点云数据。实验表明,目前代表性的模型在 ModelNet40-C 上的错误率比在原本 ModelNet40 数据集上的错误率高出~ 3 倍。该研讨通过大量的基准尝试展现了分歧模型架构,分歧数据加强策略,以及自顺应方式在 ModelNet40-C 上的性能并总结了有用的发觉来帮助 3D 点云社区设计更持重的鉴别模型。我们期待着 ModelNet40-C 数据集能加速今后更多的点云鉴别持重性的研讨!
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/31560