2023 年 1 月 21 日,人工智能顶级会议 ICLR 2023(International Conference on Learning Representations)投稿结果正式公布。上海人工智能实验室主动驾驭 OpenDriveLab 团队成果 —— 鉴于自监视几何建模的主动驾驭战略预训练方法(PPGeo)被正式录用。PPGeo 是一个鉴于几何建模的自监视预训练框架,利用大量无标注搜集驾驭视频,以自监视的方式对驾驭战略进行预训练,将会显著提升卑鄙端到端感知决策任意的机能。
驾驭战略进修的特殊性
主动驾驭领域中的端到端驾驭战略进修将原始传感器数据(图片,车身信号,点云等)作为输出,直接预计控制信号或规划路线。由于驾驭环境的复杂性和不确定性以及传感器数据中的大量无关信息,对于端到端的驾驭战略模型,从头开始进修是很困难的,它通常需要大量的标注数据或环境交互反馈才能达到令人满意的机能。
如图 1 所示,自然环境中存在着许多不需要关注的信息如建筑物、天气变化以及光照变化等,于驾驭任意而言,下一步往哪里行驶,信号灯是否允许通行,这些信息才是真正需要关注的。
(a) 静态障碍物和背景建筑物(黄色矩形中的物体)与驾驭决策无关;
(b) 视觉输出中的交通信号(标有绿色框)仅占图片的很小一部分,但对于控制输出而言却是确定性的;
(c) 端到端驾驭战略模型必须对差别的光照和天气条件具有鲁棒性。
图 1:PPGeo 研究动机
当前预训练方法在战略进修任意中的限制
为解决端到端的驾驭战略模型对于大规模标注数据的需求,采用无标注的驾驭视频 (如图 2)数据对驾驭战略模型的感知部分进行预训练是很自然的思路,因此获得了非常广泛有效的应用,主流的预训练方法包括分类,对比进修,掩码图象建模。然而,差别于常见的检测和分割任意,端到端驾驭战略进修对自车的位姿敏感,缺乏平移或视角不变性。这也使得常见视觉任意预训练的常胜将军们,在端到端驾驭战略进修任意上败下阵来。由于上文提到的端到端驾驭任意输出的特殊性,其他机器人领域的视觉控制任意运用的预训练方法在这里也表现相对有限。
图 2:YouTube 上驾驭视频数据示例
对此,OpenDriveLab 团队提出一个鉴于自监视几何建模的端到端主动驾驭战略预训练方法(PPGeo)。
论文地址:https://arxiv.org/abs/2301.01006
项目地址:https://github.com/OpenDriveLab/PPGeo
鉴于自监视几何建模的战略预训练
PPGeo 分为两个阶段,在第一阶段,根据时序前后帧图象训练位姿和深度预计搜集;在第二阶段,利用第一阶段训练的深度搜集和位姿搜集监视单图象输出的视觉编码器,完成视觉编码器的预训练。将运用 PPGeo 预训练后的视觉编码器进行微调,可以适配于卑鄙差别的端到端主动驾驭任意。实验表明,鉴于 PPGeo 的预训练方法相比于其他预训练方法在卑鄙任意上具有更好的驾驭机能。
图 3:PPGeo 的概述。(a) 在第一阶段 (a.1), 利用前后帧图象作为输出,训练一个位姿预计搜集 PoseNet 和深度预计搜集 DepthNet,位姿预计搜集通过比较前后帧图片推测出自车静止,并结合深度和相机内参预计完成两帧之间的像素对应,从而形成监视。在第二阶段 (a.2),待预训练的视觉编码器仅以单帧图象作为输出,在当前帧图象中捕捉与驾驭战略真正相关的信息来预计自车静止,并利用第一阶段获得的内参和深度预计完成像素对应。在这个说明性的例子中,自车需要刹车。位姿预计搜集(a.1)根据连续两帧几乎没有变化来推断出刹车行为;而视觉编码器(a.2)根据单一视觉输出中前方有他车来做出预计。(b) 视觉编码器可以被微调并应用于广泛的卑鄙任意中。
第一阶段 – 自监视的几何建模
通过给定一个目标图象 I_t 和源图象 I_(t^' ),预计目标图象的深度、相机的内参,以及这两帧之间的六自由度自车静止。根据这些预计结果,我们可以对场景的三维几何形状进行建模,并通过在源图象中投影像素来重建目标图象,根据重建的光度误差计算损失进行自监视训练。
第二阶段 – 视觉静止战略预训练
经过第一阶段的训练后,预计深度的 DepthNet 和预计位姿变化的 PoseNet 经过良好的训练,已经拟合了驾驭视频数据。在第二阶段,我们将用于卑鄙驾驭战略进修任意的视觉编码器 φ(X) 替换 PoseNet。现在,视觉编码器只接受单帧图象作为输出,并预计当前帧和后续帧之间的自车静止。当前到未来帧的自车静止直接与当前时刻下的驾驭决策或行动相关, 因此视觉编码器能够通过预计自车静止进修到实际的驾驭战略。
至此,视觉编码器 φ(X) 已经从大量的驾驭视频中获得了关于驾驭战略的知识。它可以作为初始权值应用于卑鄙的端到端主动驾驭任意。此外,经过在大量无标注校准的视频数据上训练的 DepthNet 和 PoseNet 也可以用于深度和测程预计任意。
PPGeo 机能比较
PPGeo 的预训练实验是在大量无标注的 YouTube 驾驭视频上进行。我们在 1Hz 的频率下总共采样了 80 万帧样本来进行训练,训练样本涵盖了诸如地理位置和天气等差别的驾驭条件(如上图 2)。
卑鄙主动驾驭任意实验
Navigation&Navigation Dynamic – 鉴于 CARLA 的两个用于模拟进修的闭环驾驭任意
我们运用差别大小的训练数据(从 4K 到 40K)在标记数据有限的情况下评估预训练视觉编码器的泛化能力并进行闭环评估。评估指标是成功率,表示在 50 条预定义路线中完成驾驭路线没有发生任何碰撞的比率。相较于 Navigation 任意,Navigation Dynamic 中还包括其他动态车辆和行人(如图 4)。
图 4:导航和导航动态任意的前视图图象示例
表 1:闭环导航任意的成功率结果
可以看到,模型在从 10% (4K) 到 100%(40K)的差别数量的微调样本下进行测试。在训练样本量特别小的情况下,PPGeo 依然表现出有竞争力的表现,并且相对其他方法有超过 100% 的提升。这验证了预训练视觉编码器的泛化能力,这在适应标记数据非常有限的新环境时非常重要。
Leaderboard‑Town05‑long
Leaderboard‑Town05‑long 的 10 条长距离路线任意更接近现实世界的城市驾驭,在路线中添加了差别的挑战性场景。由于此任意中具有挑战性的场景,我们运用最先进的鉴于单帧图象的主动驾驭模型 TCP (NeurIPS 2022)来评估差别的预训练方法。该任意的主要指标是驾驭分数、路线完成和违规分数(均越高越好)。
如表 2 所示,在更具挑战性和真实世界风格的 Leaderboard Town05-Long 任意中,运用我们的方法预训练的模型获得了最高的驾驭分数和违规分数。PPGeo 可以很好地处理自车需要刹车的情况,从而大大减少车辆碰撞和闯红灯的情况。
表 2:闭环任意 Town05-long 任意结果。除三个主要指标外,其余违规详细信息(越低越好)上 PPGeo 也均表现优秀
强化进修在 CARLA 中的驾驭任意
我们进一步验证预训练方法对于强化进修任意的帮助。我们运用强化进修算法近端战略优化 (PPO) 在 CARLA Town01 环境中训练运用差别预训练权重初始化的 CILRS 模型(左)。我们进一步实验在训练期间冻结预训练的视觉编码器(右),以更好地研究预训练特征表示的有效性。
图 5:运用 PPGeo 和其他三个最佳预训练方法的强化进修进修曲线。左:预训练视觉编码器在 RL 训练期间联合微调;右:视觉编码器在 RL 训练期间被冻结
NuScenes 上的开环规划任意
我们运用真实世界的 NuScenes 数据集评价差别时间长度下的轨迹规划预计与实际真实轨迹之间的 L2 距离以及规划轨迹导致的碰撞率。相较其它预训练方法,PPGeo 在卑鄙开环规划任意上也取得了最优的效果。
表 3:NuScenes 开环轨迹规划结果
可视化结果
图 6 展示的是差别预训练方法进修的特征表示的热图。在许多情况下,我们的模型关注部分主要集中在与驾驭高度相关的自车前方的车道。PPGeo 还很好地捕捉到了导致刹车动作的特定线索,包括前方车辆(第 3 和 4 行)和交通信号灯(第 5 行)。我们还观察到,运用 ImageNet 分类预训练的模型倾向于捕获图象中的显著对象,当显著对象与驾驭决策直接相关时(第 4 行),该模型可以正常工作;但当输出包含其他不相关信息时(第 2 行和第 3 行),该模型可能会关注错误的对象。
图 6:驾驭视频数据上差别预训练方法进修表征的可视化热图
消融研究
就表 4 中的导航任意对 PPGeo 的差别设计进行了消融研究。同时在单个阶段(第 1 行)训练视觉编码器和 DepthNet 导致机能变差,这表明同时从头开始进行对深度预计搜集和预计自车静止的视觉编码器的训练过于困难。此外,在第二阶段(第 2 行)联合优化 DepthNet 会降低深度预计质量并损害机能。在第 3 行中,我们观察到利用第一阶段获得的 PoseNet 提供伪标签监视将会导致较差的结果,因为单个不准确的伪标签在很大程度上对进修过程造成影响,而通过像素重建的方式可以获得更加稠密丰富的监视。
表 4:PPGeo 的关键设计消融研究
总结
我们提出了一种针对视觉静止驾驭任意的预训练范式 PPGeo。这是第一个完全自监视的预训练框架,不需要任何标签和额外数据,可以充分利用大规模的无标注数据。
经过预训练的视觉编码器,能够鉴于单一的视觉输出预计自车静止,并提取与驾驭战略密切相关的特征表征。这种视觉编码器的设计可以灵活地扩展到各种卑鄙应用程序。
我们在一系列端到端驾驭任意上展示了我们的方法的优越性,涵盖了差别的类型和难度级别。在数据非常有限的具有挑战性的情况下,各种指标方面的机能从 2% 提高到甚至超过 100%。
运用第一阶段训练后的 DepthNet 和 PoseNet 作为初始权重,并在 KITTI 上进行实验。证明了通过大规模驾驭视频的预训练也可以提高深度和测程预计任意的机能,这是我们的预训练框架的额外收获。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/23306