如今自动驾驶汽车和机器人能够通过激光雷达、摄像头等各种传感捕获信息。作为一种传感器,LiDAR 利用光脉冲丈量场景中方向的 3D 坐标,但是其存在稀疏、范围有限等缺点——离传感器越远,返回的点就越少。这意味着远处的方向可能只得到少数几个点,或者根本没有,而且可能无法单独被 LiDAR 采集到。同时,来自车载摄像头的图象输出非常密集,这有利于检测、方向分割等语义理解任务。凭借高分辨率,摄像头可以非常有效地检测远处方向,但在丈量距离方面不太正确。自动驾驶汽车从 LiDAR 和车载摄像头传感器收集数据。每个传感器丈量值都会被定期记录,提供 4D 世界的正确表示。然而,很少有研究算法将这两者分离利用。当同时利用两种传感模式时会面临两个挑战,1) 难以保持计算效率,2) 将一个传感器的信息与另一个传感器配对会进一步增加系统复杂性,因为 LiDAR 点和车载摄像头 RGB 图象输出之间并不总是直接对应。在发表于 ICCV 2021 的论文《 4D-Net for Learned Multi-Modal Alignment 》中,来自google、Waymo 的研究者提出了一个可以处理 4D 数据(3D 点云和车载摄像头图象数据)的神经网络:4D-Net。这是首次将 3D LiDAR 点云和车载摄像头 RGB 图象进行分离的研究。此外,google还介绍了一种静态连贯进修法子。最后,google证明 4D-Net 可以更好地利用运动线索(motion cues)和密集图象信息来检测远处方向,同时保持计算效率。论文地址:https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf4D-Netgoogle利用 4D 输出进行方向 3D 边框检测。4D-Net 有效地将 3D LiDAR 点云与 RGB 图象及时分离,进修不同传感器之间的连贯及其特性表示。
google利用轻量级神经架构搜索来进修两种类型的传感器输出及其特性表示之间的联系,以获得最正确的 3D 框检测。在自动驾驶领域,可靠地检测高度可变距离的方向尤为重要。现代 LiDAR 传感器的检测范围可达数百米,这意味着更远的方向在图象中会显得更小,并且它们最有价值的特性将在网络的早期层中,与后面的层表示的近距离方向相比,它们可以更好地捕捉精细尺度的特性。基于这一观察,google将连贯修改为静态的,并利用自注意力机制在所有层的特性中进行选择。google应用了一个可进修的线性层,它能够将注意力加权应用于所有其他层的权重,并进修当前任务的最佳组合。
连贯进修法子示意图。结果google在 Waymo Open Dataset 基准中进行了测试,之前的模型只利用了 3D 点云,或单个点云和相机图象数据的组合。4D-Net 有效地利用了两种传感器输出,在 164 毫秒内处理 32 个点云和 16 个 RGB 帧,与其他法子相比机能良好。相比之下,机能次优的法子效率和正确性较低,因为它的神经网络计算需要 300 毫秒,而且比 4D-Net 利用更少的传感器输出。
3D 场景的结果。上图:与检测到的车辆相对应的 3D 框以不同颜色显示;虚线框代表丢失的方向。底部:出于可视化目的,这些框显示在相应的摄像机图象中。检测远处的方向4D-Net 的另一个优点是,它既利用了 RGB 提供的高分辨率,可以正确地检测到图象上的方向,又利用了点云数据提供的精确深度。因此,点云法子无法探测到的远距离方向可以被 4D-Net 探测到。这是由于相机数据的融合,能够探测到遥远的方向,并有效地将这一信息传播到网络的 3D 部分,以产生正确的探测。为了了解 4D-Net 带来的优势,google进行了一系列消融研究。实验发现,如果至少有一个传感器输出是及时流的,则可以显着提高检测正确率。及时考虑两个传感器输出可以最大程度地提高机能。
利用点云 (PC)、时间点云 (PC + T)、RGB 图象输出 (RGB) 和时间 RGB 图象 (RGB + T) 时,以平均精度 (AP) 丈量 3D 方向检测的 4D-Net 机能。多流 4D-Net由于 4D-Net 静态连贯进修机制是通用的,因此google并没有局限于仅将点云流与 RGB 视频流分离起来。实际上,google发现提供一个高分辨率单图象流以及一个与 3D 点云流输出分离的低分辨率视频流非常划算。因此,google在下图中展示了四流(four-stream)架构的示例,该架构比具有实时点云和图象的两流架构机能更好。静态连贯进修选择特定的特性输出以连贯在一起。依托多个输出流,4D-Net 必须进修多个方向特性表示之间的连贯,这一点很好理解,因为算法没有改变并且只需要从输出中选择特定的特性。这是一个利用可微架构搜索的轻量级过程,可以发现模型架构内部新的连贯,并进而高效地找到新的 4D-Net 模型。
多流 4D-Net 架构包含一个实时 3D 点云流以及多个图象流(高分辨率单图象流、中分辨率单图象流和更低分辨率视频流图象)。google展示了 4D-Net 是一种高效的方向检测法子,尤其适合检测远距离方向。研究者希望这项工作为未来的 4D 数据研究提供珍贵的资源。原文链接:https://ai.googleblog.com/
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/28610