三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

OpenShape 让三维形态的绽放世界理解成为可能。

输出一把摇椅和一匹马的三维形态,能得到什么?

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

木马和坐在椅子上的牛仔!

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

木推车加马?得到马车和电动马;香蕉加帆船?得到香蕉帆船;鸡蛋加躺椅?得到鸡蛋椅。 

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

来自UCSD、上海交大、高通团队的研讨者提出最新三维示意模型OpenShape,让三维形态的绽放世界理解成为可能。

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

论文地址:https://arxiv.org/pdf/2305.10764.pdf

项目主页:https://colin97.github.io/OpenShape/ 

交互demo: https://huggingface.co/spaces/OpenShape/openshape-demo

代码地址:https://github.com/Colin97/OpenShape_code

通过在多模态数据(点云 – 文本 – 图象)上进修三维点云的原生编码器,OpenShape 构建了一个三维形态的示意空间,并与 CLIP 的文本和图象空间举行了对齐。得益于大规模、多样的三维预训练,OpenShape 首次实现三维形态的绽放世界理解,支持零样本三维形态分类、多模态三维形态检索(文本 / 图象 / 点云输出)、三维点云的字幕天生和鉴于三维点云的图象天生等跨模态任务。

三维形态零样本分类

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

OpenShape 支持零样本三维形态分类。无需额外训练或微调,OpenShape 在常用的 ModelNet40 基准(包罗 40 个常见类型)上达到了 85.3% 的 top1 准确率,超过现有零样本方法 24 个百分点,并首次实现与部分全监督方法相当的性能。OpenShape 在 ModelNet40 上的 top3 和 top5 准确率则分别达到了 96.5% 和 98.0%。

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

与现有方法主要局限于少数常见物体类型不同,OpenShape 能够对广泛的绽放世界类型举行分类。在 Objaverse-LVIS 基准上(包罗 1156 个物体类型),OpenShape 实现了 46.8% 的 top1 准确率,远超现有零样本方法最高只有 6.2% 的准确率。这些结果表明 OpenShape 具备有效识别绽放世界三维形态的能力。

多模态三维形态检索

通过 OpenShape 的多模态示意,用户可以对图象、文本或点云输出举行三维形态检索。研讨通过计算输出示意和三维形态示意之间的余弦相似度并查找 kNN,来从集成数据集中检索三维形态。

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

图片输出的三维形态检索

上图展现了输出图片和两个检索到的三维形态。

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

文本输出的三维形态检索

上图展现了输出文本和检索到的三维形态。OpenShape 学到了广泛的视觉和语义概念,从而支持细粒度的子类型(前两行)和属性控制(后两行,如颜色,形态,风格及其组合)。

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

三维点云输出的三维形态检索

上图展现了输出的三维点云和两个检索到的三维形态。

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

双输出的三维形态检索

上图将两个三维形态作为输出,并使用它们的 OpenShape 示意来检索同时最接近两个输出的三维形态。检索到的形态巧妙地结合了来自两个输出形态的语义和几何元素。

鉴于三维形态的文本和图象天生

由于 OpenShape 的三维形态示意与 CLIP 的图象和文本示意空间举行了对齐,因此它们可以与很多鉴于 CLIP 的衍生模型举行结合,从而支持各种跨模态应用。

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

三维点云的字幕天生

通过与现成的图象字幕模型(ClipCap)结合,OpenShape 实现了三维点云的字幕天生。

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

鉴于三维点云的图象天生

通过与现成的文本到图象的扩散模型(Stable unCLIP)结合,OpenShape 实现了鉴于三维点云的图象天生(支持可选的文本提示)。

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

更多的鉴于三维点云的图象天生示例

训练细节

鉴于比照进修的多模态示意对齐:OpenShape 训练了一个三维原生编码器,它将三维点云作为输出,来提取三维形态的示意。继之前的工作,研讨利用多模态比照进修来与 CLIP 的图象和文本示意空间举行对齐。与之前的工作不同,OpenShape 旨在进修更通用和可扩展的联合示意空间。研讨的重点主要在于扩大三维示意进修的规模和应对相应的挑战,从而真正实现绽放世界下的三维形态理解。

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

集成多个三维形态数据集:由于训练数据的规模和多样性在进修大规模三维形态示意中起着至关重要的作用,因此研讨集成了四个当前最大的公开三维数据集举行训练。如下图所示,研讨的训练数据包罗了 87.6 万个训练形态。在这四个数据集中,ShapeNetCore、3D-FUTURE 和 ABO 包罗经过人工验证的高质量三维形态,但仅涵盖有限数量的形态和数十个类型。Objaverse 数据集是最近发布的三维数据集,包罗显著更多的三维形态并涵盖更多样的物体类型。然而 Objaverse 中的形态主要由搜集用户上传,未经人工验证,因此质量参差不齐,分布极不平衡,需要进一步处理。

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

文本过滤和丰富:研讨发现仅在三维形态和二维图象之间应用比照进修不足以推动三维形态和文本空间的对齐,即使在对大规模数据集举行训练时也是如此。研讨推测这是由于 CLIP 的语言和图象示意空间中固有的领域差距引起的。因此,研讨需要显式地将三维形态与文本举行对齐。然而来自原始三维数据集的文本标注通常面临着缺失、错误、或内容粗略单一等问题。为此,本文提出了三种策略来对文本举行过滤和丰富,从而提高文本标注的质量:使用 GPT-4 对文本举行过滤、对三维模型的二维渲染图举行字幕天生和图象检索。

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

研讨提出了三种策略来自动过滤和丰富原始数据集中的嘈杂文本。

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

文本过滤和丰富示例在每个示例中,左侧部分展现了缩略图、原始形态名称和 GPT-4 的过滤结果。右上部分展现来来自两个字幕模型的图象字幕,而右下部分显示检索到的图象及其相应的文本。

扩大三维主干搜集。由于先前关于三维点云进修的工作主要针对像 ShapeNet 这样的小规模三维数据集, 这些主干搜集可能不能直接适用于我们的大规模的三维训练,需要相应地扩大主干搜集的规模。研讨发现在不同大小的数据集上举行训练,不同的三维主干搜集表现出不同的行为和可扩展性。其中鉴于 Transformer 的 PointBERT 和鉴于三维卷积的 SparseConv 表现出更强大的性能和可扩展性,因而选择他们作为三维主干搜集。

三维点云的绽放世界理解,分类、检索、字幕和图象天生样样行

在集成数据集上扩展三维主干模型的大小时,不同主干搜集的性能和可扩展性比较。

困难负例挖掘:该研讨的集成数据集表现出高度的类型不平衡。一些常见的类型,比如建筑,可能占据了数万个形态,而许多其他类型,比如海象和钱包,只有几十个甚至更少的形态,代表性不足。因此,当随机构建批次举行比照进修时,来自两个容易混淆的类型(例如苹果和樱桃)的形态不太可能出现在同一批次中被比照。为此,本文提出了一种离线的困难负例挖掘策略,以提高训练效率和性能。

欢迎到 HuggingFace 上尝试交互 demo。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/20541

(0)
上一篇 2023年6月2日 上午9:54
下一篇 2023年6月2日 下午12:43

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注