如今,计算机视觉社区已经广泛展开了对物体姿势的 6D 追踪和 3D 重修。本文中英伟达提出了同时对未知物体举行 6D 追踪和 3D 重修的格式。该格式如果物体是刚体,并且需要视频的第一帧中的 2D 物体掩码。
除了这两个要求之外,物体可以在整个视频中自由移动,甚至经历严重的遮拦。英伟达的格式在目标上与物体级 SLAM 的先前工作类似,但放松了许多常见的如果,从而能够处理遮拦、反射、缺乏视觉纹理和若干线索以及突然的物体运动。
英伟达格式的关键在于在线姿势图优化过程,同时举行神经重修过程和一个内存池以促进两个过程之间的通信。相关论文已被 CVPR 2023 会议接收。
论文地址:https://arxiv.org/abs/2303.14158
项目主页:https://bundlesdf.github.io/
项目代码:https://github.com/NVlabs/BundleSDF
本文的贡献可以总结如下:
一种用于新奇未知动向物体的因果 6 自由度姿势追踪和 3D 重修的新格式。该格式利用了并发追踪和神经重修过程的新奇共同设计,能够在几乎实时的在线环境中运行,同时大大减少了追踪漂移。
引入了混合 SDF 表示来处理动向物体为中心的环境中由于噪声肢解和交互引起的不确定自由空间的挑战。
在三个公共基准测试中举行的实验显示了本文格式与主流格式的最先进性能。
英伟达格式的鲁棒性在下图 1 中得到了突出显示。
下面是一些 Demo 展示:
与相关工作的对比
此前的 6D 物体姿势计算旨在推断出目标物体在相机帧中的三维平移和三维旋转。最先进的格式通常需要实例或种别级别的物体 CAD 模型举行离线训练或在线模板匹配,这限制了它们在新奇未知物体上的应用。尽管最近有几项研究工作放宽了如果并旨在快速推广到新奇未见的物体,但它们仍然需要预先捕获测试物体的姿势参考视图,而英伟达的设定中并不如果这一点。
除了单帧姿势计算之外,6D 物体姿势追踪利用时间信息在整个视频中计算每帧物体姿势。与单帧姿势计算格式类似,这些格式在不同的如果条件上举行,例如训练和测试使用相同的物体,或者在相同种别的物体上举行预训练。
然而,与所有以往工作不同的是,英伟达的追踪和重修协同设计采用了一种新奇的神经表示,不仅在实验证实中实现了更强大的追踪能力,还能够输出额外的形状信息。
此外,虽然 SLAM(同时定位与地图构建)格式解决的是与本研究类似的问题,但其专注于追踪相机相对于大型静态环境的姿势。动向 SLAM 格式通常通过帧 – 模型迭代最近点(ICP)与颜色相结合、概率数据关联或三维水平集似然最大化来追踪动向物体。模型通过将观察到的 RGBD 数据与新追踪的姿势聚合实时重修。
相比之下,英伟达的格式利用一种新奇的神经对象场表示,允许自动融合,同时动向矫正历史追踪的姿势以保持多视角一致性。英伟达专注于物体为中心的场景,包括动向情景,其中常常缺乏纹理或若干线索,并且交互主体经常引入严重遮拦,这些是在传统 SLAM 中很少发生的困难。与物体级 SLAM 研究中研究的静态场景相比,动向交互还允许观察物体的不同面以举行更完整的三维重修。
格式概览
英伟达格式的概述如下图所示。给定单目 RGBD 输入视频以及仅在第一帧中感兴趣物体的肢解掩码,该格式通过后续帧追踪物体的 6D 姿势并重修物体的纹理 3D 模型。所有处理都是因果的(无法访问未来帧的信息)。英伟达如果物体是刚体,但适用于无纹理的物体。
此外不需要物体的实例级 CAD 模型,也不需要物体的种别级先验知识(例如事先在相同的物体种别上训练)。
整个框架的流程可以概括为:首先在连续的肢解图像之间匹配特征,以获得粗略的姿势计算(第 3.1 节)。其中一些具有姿势的帧被存储在内存池中,以便稍后使用和优化(第 3.2 节)。从内存池的子集动向创建姿势图(第 3.3 节);在线优化与当前姿势一起优化图中的所有姿势。
然后,这些更新的姿势被存储回内存池中。最后,内存池中的所有具有姿势的帧用于学习基于 SDF 表示的神经物体场(在单独并行的线程中),该对象场建模物体的若干和视觉纹理(第 3.4 节),同时调整它们先前计算的姿势,以鲁棒化 6D 物体姿势追踪。
在这项工作中,一个独特的挑战在于交互者引入的严重遮拦,导致了多视若干不再一致。并且完美的物体肢解掩码通常无法得到。为此,英伟达举行了独特的建模以增加鲁棒性。
下面左图:使用视频肢解网络(第 3.1 节)预测的二值掩码举行高效的射线追踪的 Octree 体素表示,该物体肢解掩码由于来自神经网络的预测难免存在错误。射线可以落在掩码内部(显示为红色)或外部(黄色)。右图:神经体积的 2D 俯视示意图,以及沿着射线举行的混合 SDF 建模的点采样。蓝色样本接近表面。
实验和结果
数据集:英伟达考虑了三个具有截然不同的交互形式和动向场景的真实世界数据集。有关野外应用和静态场景的结果,请参阅项目页面。
HO3D:该数据集包含了人手与 YCB 物体交互的 RGBD 视频,由近距离捕捉的 Intel RealSense 相机举行拍摄。
YCBInEOAT:该数据集包含了双臂机器人操作 YCB 物体的第一视角的 RGBD 视频,由中距离捕捉的 Azure Kinect 相机举行拍摄。操作类型包括:(1)单臂拾取和放置,(2)手内操作,以及(3)双臂之间的拾取和交接。
BEHAVE:该数据集包含人体与物体交互的 RGBD 视频,由 Azure Kinect 相机的预校准多视图系统远距离捕捉。然而,我们将评估限制在单视图设置下,该设置经常发生严重遮拦。
评估指标:英伟达分别评估姿势计算和形状重修。对于 6D 物体姿势,他们使用物体若干来计算 ADD 和 ADD-S 指标的曲线下面积(AUC)百分比。对于 3D 形状重修,英伟达计算最终重修网格与地面真实网格之间在每个视频的第一帧定义的规范坐标系中的 Chamfer 距离。
对比格式:英伟达使用官方的开源实现和最佳调整参数与 DROID-SLAM (RGBD) [61]、NICE-SLAM [85]、KinectFusion [43]、BundleTrack [69] 和 SDF-2-SDF [53] 举行比较。此外还包括它们在排行榜上的基准结果。
团队介绍
该论文来自于英伟达研究院。其中论文一作是华人温伯文,博士毕业于罗格斯大学计算机系。曾在谷歌 X,Facebook Reality Labs, 亚马逊和商汤实习。研究方向为机器人感知和 3D 视觉。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/20299