引言
在主动驾驭领域,BEV感知能为主动驾驭感知恣意提供有效的时空表征方式,将成为车载感知的主流发展方向,能在多样而复杂的驾驭场景中都能稳定地建立高质量的矢量化高精舆图(vectorized HD map),对于BEV感知能力的提升至关重要。它能为环境感知提供重要的高层级语义信息。然而,现有的矢量化高精舆图建立方式往往存在一些毛病,现有的评介目标对于这些毛病的敏感度却不足。这在对精度要求极高的主动驾驭场景中,可能带来安全隐患。因此,我们需要更有效的舆图矢量化方式和更敏感的评介目标,以提高舆图建立的精确性,满足主动驾驭的严格要求。
为应对这一挑战,黑芝麻智能的科研团队与新加坡南洋理工大学的研究者们在最新公开的论文中提出了一个新观点:在“矢量化高精度舆图建立”恣意中,应当引入栅格化(rasterization)的视角。鉴于这一动机,他们提出了两点创新:一是建立了一种更加精确和合理的鉴于栅格化的“矢量化高精舆图建立”的评介目标;二是推出了 MapVR(Map Vectorization via Rasterization),一个受益于栅格化视角的更精准的“矢量化高精舆图建立”的框架。
在接下来的内容中,我们将深入介绍此研究的背景,所提出的评介目标和 MapVR 的细节,以及讨论如何利用栅格化来提高矢量化高精舆图的精准度和实用性。
背景
在线高精度舆图建立是指利用车载传感器(如摄像头)的输入,实时建立自车周围舆图(包含车道线、道路边沿、人行横道、泊车位等)的恣意。现有的在线高精度舆图建立方式主要分为两大模式:舆图栅格化(map rasterization)和舆图矢量化(map vectorization)。舆图栅格化相对简单直观,它将周围环境在鸟瞰视图(Bird's-eye View,BEV)中建模为语义分割恣意,将分割结果作为输出的栅格化舆图。然而,这种栅格化的舆图并非适用于主动驾驭应用的理想表达形式,因为它难以区分不同舆图元素,无法提供结构信息,因而需要进行大量的后处理才能供下游恣意使用。为解决这些问题,舆图矢量化方式应运而生,成为实时建立高精舆图的热门方案。最新的舆图矢量化方式,例如VectorMapNet和MapTR,使用有序点集来表征各个舆图元素,直接回归每个舆图元素的一系列点坐标,实现了更精确的结果和更快的运行速度。
然而,最新方式在实践中常常表现得不尽如人意,原因主要有三。首先,如下图所示,稀疏点集的表征方式在处理舆图结构的尖锐弯曲或复杂细节时,精度不足,会导致明显的参数化误差。第二,将等间隔的点集作为回归目标时,中间的点会缺乏清晰的视觉线索。这会导致监督信号的模糊性,使得学习过程变得困难。再者,单纯依赖点集间的L1损失进行回归监督,往往会忽视细粒度的特征,导致猜测结果过于平滑,模型对微小的变化不敏感。
同样地,当前的评介目标也是鉴于点集之间的Chamfer间隔,这种方式也容易忽视微小的毛病和几何细节。
总而言之,针对主动驾驭这样对精度要求苛刻的场景,我们认识到现有的舆图矢量化方式和评介目标仍有很大不足。为了满足真实驾驭场景的需求,业界和学术界都应采用更高精度、更面向业务的评介目标和方式。
动机
为了解决上述问题,我们尝试了一个新的思路——在舆图矢量化恣意中引入栅格化(rasterization)的视角。栅格化的表达方式有其独特的优势,它与人类对环境的感知模式更为相符,能提供更为详细和直观的信息。
然而,如何将这一思路有效地融合到舆图矢量化中,以提升精度和实用性,无疑是一项挑战。我们希望,通过引入栅格化视角,能够在方式和评介目标上均更精确地捕捉到舆图的细节和结构,提升舆图矢量化的精度,同时还能保留其矢量化的优势,使其更适合主动驾驭的各种下游恣意。
鉴于栅格化的舆图矢量化评介目标
1. 回顾现有的评介目标
现有的评介目标使用Chamfer间隔来确定猜测的舆图元素和真实的舆图元素是否婚配。Chamfer间隔是一种衡量两个无序点集之间不相似性的量,它量化了一个集合中每个点到另一个集合中最近点的平均间隔,可以用公式表达为:
尽管它简单且能给出大致合理的评介结果,但这一目标的以下缺陷使得其在如主动驾驭等对精度要求极高的场景中显得不足:首先,它不具备尺度不变性,对于较小的舆图元素(如停车线),Chamfer间隔无论猜测是否精确都会很小,无法提供有意义的评介。其次,Chamfer间隔仅依赖于无序点集的间隔,完全忽视了舆图元素的形状和几何特性,因此对许多实际驾驭场景会产生不合理的评介。
2. 更精准与合理的鉴于栅格化的评介目标
为了解决上述限制,我们提出了一种鉴于栅格化的评介目标,该目标对细微毛病更敏感,并更适合真实的驾驭场景。在此目标中,我们采用栅格化来精确地确定猜测的舆图元素和真实舆图元素的婚配。
如上图所示,我们使用线形的舆图元素(例如,车道线和泊车线等)来示例我们的评介目标。首先,目标舆图元素和猜测的舆图元素都被栅格化(rasterization)为一条折线。栅格化后的图像分辨率应较高(例如,栅格化后的每个像素代表现实中的0.1米),以保证评介的精准性。然后,为了使我们的评介目标能对细长的折线的轻微偏移有一定的容忍度,我们将栅格化的折线在每侧膨胀(dilate)2个像素。最后,我们计算栅格化的猜测和目标之间的交并比(IoU)以判断其是否婚配。与MS-COCO目标检测的的评介目标目标类似,我们在多个IoU阈值下计算Average Precision(AP)。
值得注意的是,舆图通常还包含除线形之外的元素,如人行横道,交叉路口和停车位等。这些舆图元素都可以被抽象为多边形。在对此类舆图元素进行评介时,我们采用类似的方式计算AP,但不同的是,我们将其栅格化为多边形,而非折线,以更合理地进行评介。
3. 两种目标的评介质量
我们以下图所示的一些实例来对比两种评介目标的评介质量。红色代表Ground Truth,蓝色代表猜测结果。一般来说,Chamfer间隔小于1.0即可认为婚配,而mIoU大于0.35才可认为婚配。
(a)所示的是一条较短的停车线。由于Chamfer间隔缺乏尺度不变性,对于这种较小的舆图元素,Chamfer间隔都会误判为婚配。而我们提出的鉴于栅格化的目标判断更为合理。
(b)所示的车道线猜测出现了轻微的横向偏移。在实际驾驭场景中,即使是轻微的横向偏移也可能带来重大危险。由于Chamfer间隔仅依赖于点集间的间隔,缺乏对形状和几何细节的理解,因此它认定猜测和Ground Truth婚配。然而,我们提出的鉴于栅格化的评介目标在确定婚配的过程中考虑了几何信息,因此能正确地识别出猜测和Ground Truth之间的差异,判定两者不婚配。
(c)所示车道线的猜测出现了轻微的纵向偏移。这种偏移通常是由于遮挡现象造成的,在实际的主动驾驭场景中,其风险并不大。因为随着车辆的移动,舆图会持续更新。由于我们所提出的鉴于栅格化的评介目标考虑了舆图元素的形状和几何信息,因此能够对这种情况给出更为合理的评介。
(d)所示的情况也能说明,我们提出的目标对微小的毛病更为敏感。
MapVR:结合可微分栅格化实现高精度的舆图矢量化
本文还提出了一个新型的舆图矢量化框架——MapVR。这是一个通用框架,不涉及网络结构的设计,因此可以与其他舆图矢量化的网络模型共同使用,如最新的MapTR。
相对于当前的舆图矢量化方式,MapVR在训练过程中采用了一种独特的技巧。它将矢量化的输出(即舆图元素的有序点集)进行可微分的栅格化处理,将每个矢量化的舆图元素渲染成一张具有高分辨率的分割掩码。然后,我们将在这些渲染后的高分辨率分割掩码上进行分割监督。这个思路与我们之前提到的评介目标是一致的,它能够提供更精确、更详细、并包含了几何形状先验的监督,这将显著提升舆图建立的精度。此外,MapVR还能够提供更合理的监督。在现有的舆图矢量化方式中,我们通常会回归等间距的点作为目标,但这常常会在缺乏明显视觉线索的中间部分的点带来模糊性。MapVR的出现,有效地解决了这个问题。
另外,舆图中经常包含很多不能被抽象成线的元素,如人行横道、十字路口、停车位等。这些元素更适合被抽象为多边形。如上图所示,我们也对这些多边形舆图元素设计了可微分栅格化的策略。具体的栅格化公式请读者参阅论文。
值得一提的是,MapVR额外引入的栅格化步骤仅需在训练时使用。在推理阶段,我们可以简单地去掉额外的可微分栅格化步骤,直接使用网络的矢量化输出作为最终的结果。因此,MapVR在推理阶段并不会引入任何额外的计算负担。这意味着我们的方式在保持高效率的同时,还能够提供更精确、更稳健的舆图建立结果。
此外,由于MapVR所提出的监督方式很大程度上消除了之前方式的“等间隔目标点”的要求,我们还引入了一个额外的损失函数作用于正则化猜测的折现之间的夹角。这能鼓励网络输出更加平滑的舆图元素,同时在转弯处得到更加精力的结果。该正则项可用公式表示为:
在论文中,我们也通过实验证实了该正则项的有效性。
实验结果
在论文中,作者将所提出的方式在4个数据集上进行了充分的实验。MapVR无论在现有的评介目标上,还是在论文中提出的新的目标上,都取得了最佳的性能。有关具体的量化实验结果和消融实验结果,请读者参阅论文。
如下图所示比较了我们所提出的MapVR和现有的最佳基线方式——MapTR。我们可以观察到,我们的方式能够生成更加精确的矢量化高精舆图,尤其是在捕捉复杂的细节以及精确呈现复杂或曲线形状的舆图元素方面表现出色。相比之下,尽管MapTR方式可以产生大体正确的矢量化舆图,但在细节部分不可避免地会出现毛病,且在精确构造复杂舆图元素上存在困难。这些结果证明了我们的方式的有效性
我们还对两种方式在两种评介目标下的精确度-召回率曲线(Precision-Recall Curve)进行了比较。观察可知,在未引入MapVR的情况下,MapTR基线在相对简单的APchamfer目标和严格的APraster目标上存在较大的差距。这说明当前的方式在捕捉舆图元素的细节方面确实存在不足。而当引入MapVR后,这两者的差距显著缩小,并且性能都有所提升。这证明了在舆图矢量化恣意中引入栅格化的精细监督确实能帮助模型提升性能,尤其是在捕捉更细节的部分上,证实了我们工作的有效性。
结语
本文提出了一种全新的视角去理解和处理舆图矢量化的恣意:通过栅格化,我们能够更精确地学习和评介舆图矢量化。我们发现,虽然矢量化表示方式简洁易用,但其在细节表示能力上存在不足;因此,有必要在学习和评介中引入栅格化作为补充。我们希望我们的视角能够为舆图矢量化的进一步创新提供基础,最终促进安全可靠的主动驾驭技术的发展。
论文原文链接:https://arxiv.org/abs/2306.10502
代码链接:https://github.com/ZhangGongjie/MapVR
原创文章,作者:特邀精选,如若转载,请注明出处:https://www.iaiol.com/news/29115