总览
为了促进实在世界中感知、重修和天生领域的发展,我们提出了 OmniObject3D,一个高质量的大种别实在三维物体数据集。本数据集有三个主要优势:1)种别丰富:覆盖 200 余个种别的约 6K 个三维物体数据;2)标注丰富:包括了高精理论网格、点云、多视角渲染图像,和实景采集的视频;3)实在扫描:专业的扫描设备保证了物体数据的精细形状和实在纹理。OmniObject3D 是目前学界最大的实在世界三维模型数据集, 为未来的三维视觉研究提供了广阔的空间。利用该数据集,我们探讨了点云识别、神经渲染、理论重修、三维天生等多种学术义务的鲁棒性和泛化性,提出了很多有价值的发现,并验证了其从感知、重修、到天生领域的开放应用前景。我们希望 OmniObject3D 以及其对应的 benchmarks 能够为学术研究和工业应用带来新的挑战和机会。作为 CVPR 2023 的投稿,我们收到了 4 位审稿人的一致满分评价,并获推 CVPR Award Candidate(top 12 / 9155)。链接Project page: https://omniobject3d.github.io/Paper: https://arxiv.org/abs/2301.07525Github: https://github.com/omniobject3d/OmniObject3D/tree/mainDataset Download: https://opendatalab.com/OpenXD-OmniObject3D-New/download
背景介绍
面向实在 3D 物体的感知、理解、重修与天生是计算机视觉领域一直倍受关注的问题,也在近年来取得了飞速的进展。然而,由于社区中长期缺乏大规模的实采 3D 物体数据库,大部分技术方法仍依赖于 ShapeNet[1] 等仿真数据集。然而,仿真数据与实在数据之间的外观和分布差距巨大,这大大限制了它们在现实生活中的应用。为了解决这一困难,近年来也有一些优秀的工作如 CO3D[2] 等从视频/多视角图片中寻求突破点,并利用 SfM 的方式重修 3D 点云,然而这种方式得到的点云往往难以提供完整、干净、精准的 3D 理论和纹理。因此,社区迫切需要一个大规模且高质量的实在世界 3D 物体扫描数据集,这将有助于推进许多3D视觉义务和下游应用。仿真数据与实在扫描数据的对比:仿真数据的纹理和几何往往比较简单且失真。
多视角图片重修点云与实在扫描数据的对比。重修点云往往含有噪声,且无法恢复精细的理论与纹理,在没有拍摄到的位置存在大面积空洞。
数据集特点
OmniObject3D 为每一个物体提供了四种模态信息,包括:带纹理的高精模型、点云、多视角渲染图像、实景拍摄的环绕视频。对于每个拍摄的视频,我们平均抽取了 200 帧,并提供前景掩码和 SfM 重修的相机位姿和稠密点云。模态示例
文件层级数据集的整体种别内物体数量呈长尾分布,与 ImageNet[3] 、COCO[4] 、LVIS[5] 和 ShapeNet[1] 等热门 2D 及 3D 数据集中的常见种别有高度共享。
每个种别内物体数量分布图
下游应用
OmniObject3D 为学界带来了广泛的探索空间,在本文中,我们选取了四个下游义务进行评估与分析。
【义务一】点云分类鲁棒性(Point Cloud Classification Robustness)
物体点云分类是 3D 感知中最基本的义务之一,在本节中,我们展示了 OmniObject3D 如何通过解耦 out-of-distribution styles & out-of-distribution corruptions 来实现更全面的点云分类的鲁棒性分析。OmniObject3D 提供了一个干净的实在世界物体点云数据集,使得能够针对 OOD styles & OOD corruptions 的鲁棒性进行细粒度分析。具体来说,1)CAD 模型与实在扫描模型之间的差异引入了 OOD styles;2)常见点云破坏因子产生了 OOD corruptions。在之前的研究工作中,含噪的实在物体数据集如 ScanObjectNN[6] 将两种情况藕合了起来,无法实现解耦分析;主动加入破坏因子的仿真数据集如 ModelNet-C[7] 则仅仅反映了第二种情况。OmniObject3D 则具备将两种情况解耦分析的要素。我们对十种最常见的点云分类模型进行了测试,并揭示了其与 ModelNet-C 数据集中结论的异同。在应对这两个挑战时,如何实现一个真正鲁棒的点云感知模型仍需更加深度的探索。
点云分类鲁棒性实验结果
【义务二】新视角合成(Novel View Synthesis)
自 NeRF[8] 提出以来,新视角合成一直是领域内的一个热门方向。我们在 OmniObject3D 上研究了两种赛道下的新视角合成方法:1)利用密集视角图片输入,对单一场景进行优化训练;2)挖掘数据集中不同场景之间的先验,探索类 NeRF 模型的泛化能力。首先,对于单场景优化的模型,我们观察到基于体素的方法会更加擅长建模高频纹理信息,而基于隐式模型的方法则相对更能抵抗理论凹陷或弱纹理等容易产生几何歧义的情况。数据集中物体多变而复杂的形状和外观为这项义务提供了一个全新的评估基准。多个常见方法的单场景优化效果示例相对于拟合的单个场景的模型,跨场景可泛化框架在本数据集上的表现则更令人期待。网络从很多同种别、甚至跨种别的数据中学习到可以泛化的信息,即可对于一个全新场景的稠密视角输入做出新视角预测。实验表明,作为一个几何和纹理信息丰富的数据集,OmniObject3D 有助于促使模型学到对新物体或甚至新种别的泛化能力。
泛化性模型效果示例
【义务三】理论重修(Surface Reconstruction)
除了新视角合成外,如果能恢复物体的显式理论,将更加有助于下游应用的开发。同时,我们的数据具备精准且完整的三维理论,能够充分支持理论重修精度的评测需要。类似的,我们也为理论重修义务设置了两条赛道:1)稠密视角采样下的理论重修;2)稠密视角采样下的理论重修。稠密视角下理论重修结果展示了数据集内几何形状的显著多样性。精准的扫描使得我们能够使用 Chamfer Distance 作为重修精度的度量。将种别划分为三个“难度”等级,可以观察到所有方法在不同等级上的结果存在明显的差距。与仅包含 15 个场景的标准 DTU[9] 基准相比,我们的数据集在这项义务上提供了更全面的评估结果。
以下为稠密视角理论重修示例:稠密视图理论重修是一个更具挑战性的义务,在所有方法的结果中我们都观察到了明显瑕疵,均未达到能够满足实际应用的水平。除了专为稠密视角理论重修设计的方法外,我们还评估了前面提到的泛化性新视角合成模型的几何恢复能力——数据集提供的精准 3D Ground Truth 在评测中再次发挥了优势,然而他们的表现同样无法令人满意。综上所述,这个问题的探索空间仍然巨大,而 OmniObject3D 为该领域进一步的研究提供了扎实的数据基础。
稠密和稠密视角理论重修效果示例
【义务四】3D 物体天生(3D Object Generation)
除了重修之外,OmniObject3D 还可以用来训练实在 3D 物体的天生模型。我们采用 GET3D[10] 框架同时天生形状和纹理,并尝试使用单个模型从数据集中同时学习多种种别的天生。 带纹理的 3D 通过在隐空间插值,可以观察到天生模型跨种别变化的特性。我们在文章中还着重探讨了由于训练数据不平衡导致的天生语义分布失衡特点,详细请参考论文。
形状和纹理低维隐码插值结果
未来工作
关于数据集本身,我们会致力于不断扩大和更新数据集以满足更广泛的研究需求。除了现有的应用,我们还计划进一步发展其他下游义务,如 2D / 3D 物体检测和 6D 姿态估计等。除了感知和重修义务外,在 AIGC 时代,我们相信OmniObject3D 能够在推动实在感 3D 天生方面发挥至关重要的作用。
参考文献
[1] Angel X Chang, Thomas Funkhouser, Leonidas Guibas, Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Manolis Savva, Shuran Song, Hao Su, et al. Shapenet: An information-rich 3d model repository. arXiv.org, 1512.03012, 2015.[2] Jeremy Reizenstein, Roman Shapovalov, Philipp Henzler, Luca Sbordone, Patrick Labatut, and David Novotny. Common objects in 3d: Large-scale learning and evaluation of real-life 3d category reconstruction. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 10901–10911, 2021.[3] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 248–255, 2009.[4] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Proceedings of the European Conference on Computer Vision (ECCV), pages 740–755, 2014.[5] Agrim Gupta, Piotr Dollar, and Ross Girshick. LVIS: A dataset for large vocabulary instance segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 5356–5364, 2019.[6] Mikaela Angelina Uy, Quang-Hieu Pham, Binh-Son Hua, Thanh Nguyen, and Sai-Kit Yeung. Revisiting point cloud classification: A new benchmark dataset and classification model on real-world data. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 1588–1597, 2019.[7] Jiawei Ren, Liang Pan, and Ziwei Liu. Benchmarking and analyzing point cloud classification under corruptions. In Proceedings of the International Conference on Machine learning (ICML), 2022.[8] Ben Mildenhall, Pratul P Srinivasan, Matthew Tancik, Jonathan T Barron, Ravi Ramamoorthi, and Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. In Proceedings of the European Conference on Computer Vision (ECCV), pages 405–421, 2020.[9] Henrik Aanæs, Rasmus Ramsbøl Jensen, George Vogiatzis, Engin Tola, and Anders Bjorholm Dahl. Large-scale data for multiple-view stereopsis. International Journal of Computer Vision (IJCV), 120(2):153–168, 2016.[10] Jun Gao, Tianchang Shen, Zian Wang, Wenzheng Chen, Kangxue Yin, Daiqing Li, Or Litany, Zan Gojcic, and Sanja Fidler. Get3d: A generative model of high quality 3d textured shapes learned from images. In Advances in Neural Information Processing Systems (NIPS), 2022.
原创文章,作者:MMLab,如若转载,请注明出处:https://www.iaiol.com/news/29309