AI在线 AI在线

PartCrafter:首个结构化3D多部件生成模型

本篇文章是北京大学、字节跳动和卡耐基梅隆大学的联合工作。 我们提出了 PartCrafter,一种新颖的结构化 3D 生成模型,为 3D 对象创建引入了一种变革性的方法。 PartCrafter 不仅能生成可分解的 3D 网格,还支持灵活的部件编辑,为创作者提供了更高的自由度。

PartCrafter:首个结构化3D多部件生成模型

本篇文章是北京大学、字节跳动和卡耐基梅隆大学的联合工作。

我们提出了 PartCrafter,一种新颖的结构化 3D 生成模型,为 3D 对象创建引入了一种变革性的方法。PartCrafter 不仅能生成可分解的 3D 网格,还支持灵活的部件编辑,为创作者提供了更高的自由度。它打破了传统的整体式 3D 模型生成规范,不仅彻底改变了 3D 模型的生成方式,还显著增强了 3D AIGC 的基础模型能力和可解释性。

PartCrafter:首个结构化3D多部件生成模型

Partcrafter 是一个结构化的3D生成模型,无需分割步骤,可以秒级生成带多个部件的 3D Mesh 表示

第一性原理

1. 为什么 part-level 的生成如此重要?从简单的生成到实际可用:

  • 文本的“逐token”生成

PartCrafter:首个结构化3D多部件生成模型

  • 图像的“分层”生成

PartCrafter:首个结构化3D多部件生成模型

  • 3D的“分部件”生成

PartCrafter:首个结构化3D多部件生成模型

2. 潜在应用:3D资产二次创作(游戏资产开发)、具身智能(关节点)、3D打印(泡泡玛特)等

  • 绑定关节点,并生成 URDF 文件
  • 3D资产二次创作

PartCrafter:首个结构化3D多部件生成模型

社交媒体上,开发者对 PartCrafter 的创新性反响热烈,认为其“简单而有效”的设计理念重新定义了 3D 生成的范式。Github 已累计达到 2k star,在 3D 生成领域的专家和学者们纷纷转发与评论,相关推特累计达到百万次浏览。PartCrafter 的训练数据、代码和模型已经完全开源。

PartCrafter:首个结构化3D多部件生成模型

  • 论文标题:PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers
  • 项目主页:https://wgsxm.github.io/projects/partcrafter/
  • 论文链接:https://arxiv.org/abs/2506.05573
  • 代码链接:https://github.com/wgsxm/PartCrafter

技术方法

传统部件级别 3D 生成方法通常采用两阶段流程,先对图像进行语义分割,再逐一重建部件,效率低(~20分钟)且易受分割错误影响。PartCrafter 通过统一生成架构,消除了对预分割的依赖,同时在生成质量和计算效率上实现双重突破。PartCrafter 能在约40秒内完成从单张图像到结构化 3D 模型的生成,效率远超传统方法。

PartCrafter 引入组合式潜在空间来同时建模每个 3D 部件之间的联系,通过局部-全局注意力机制来保证生成过程中各部件的语义独立性和整体的保真程度。

PartCrafter:首个结构化3D多部件生成模型

Partcrafter 网络结构设计

1.组合式潜在空间(Compositional Latent Space)

每一个3D部件都对应一组解耦的 latent token 表示,模型能理解各个部件的独立性与语义含义。为了区分不同部件,模型还为每组 token 添加了一个可学习的“部件身份嵌入”(Part Identity Embedding),增强对部件级别的结构感知。

2. 局部-全局联合去噪 Transformer

(Local-Global Denoising Transformer)

PartCrafter 并非简单地单独生成每个部件,而是引入了一个局部与全局融合的推理机制:

  • 局部信息用于保证每个部件内部结构的一致性;
  • 全局信息用于协调多个部件之间的空间和语义关系;
  • 图像条件(RGB输入)被同时引入局部与全局分支,确保生成内容既独立又具整体性。

数据构造

现有的大型3D数据集虽包含丰富的模型,但真正具备部件级标注的资源仍较稀缺。为此,PartCrafter 团队自建了一个高质量训练数据集:

PartCrafter:首个结构化3D多部件生成模型

为支持部件级生成,PartCrafter 团队精心构建了一个包含13万个 3D 对象的大型数据集,其中10万个对象具备多部件标注。这些数据整合了 Objaverse、ShapeNet、ABO 等知名 3D 资源库,通过挖掘部件级标注,为模型训练提供了丰富的监督信息。这一数据集的开放将为 3D 生成领域的研究提供宝贵资源,助力更多团队探索结构化建模的潜力。

筛选标准:

  • 材质贴图质量(texture quality)
  • 拆分部件数量(part count)
  • 各部件之间的平均交并比(IoU)

最终构成:

  • 精选出约 5万个 具备精细部件标签的对象
  • 包含超过 30万个独立 3D 部件,构成强监督训练的核心资源

数据分布图展示了不同 3D 对象的部件数量统计,说明模型训练覆盖了从少数部件到复杂组合的广泛结构类型。

实验结果

PartCrafter 可以同时适用于(1)部件级别的3D物体生成;(2)物体组合的3D场景生成。团队在这两种设定下开展了丰富全面的实验。

1. 定量结果

1.1 物体数据集上的重建结果

PartCrafter:首个结构化3D多部件生成模型

在物体级和部件级指标上, PartCrafter 的性能都远超 HoloPart 。给定一张图像, PartCrafter 能够在数秒内生成一个高保真、几何独立且可按部件分解的 3D 网格。相比之下, HoloPart 需要更多时间来分割物体网格,并且其分割过程会因生成网格的几何质量低于真实的艺术创作网格而受到影响,从而限制了其性能。值得注意的是,即使当我们将骨干模型 TripoSG 中的 token 数量与我们的方法对齐时, 在物体级指标上仍然优于 TripoSG .

1.2 场景数据集上的重建结果

PartCrafter:首个结构化3D多部件生成模型

MIDI 在评估时使用了真实的分割掩码(ground truth segmentation masks),但 PartCrafter 则完全不需要任何分割操作。为了进一步验证我们方法的有效性,我们从 3D-Front 数据集中选取了一个包含严重遮挡的 3D 场景子集,在这些场景中,真实的分割掩码无法分割出所有物体。我们观察到,在场景遮挡情况下, MIDI 的性能出现了显著下降,而 PartCrafter 仍然能够保持高水平的生成质量。

2. 定性结果

2.1 3D物体重建效果

PartCrafter:首个结构化3D多部件生成模型

2.2 3D场景重建效果

PartCrafter:首个结构化3D多部件生成模型

2.3 用户指定 Part 生成的颗粒度

PartCrafter 的组合式潜在空间设计使得颗粒度控制成为可能。通过指定潜在向量集合的个数,用户可以实现部件分割颗粒度的控制。

PartCrafter:首个结构化3D多部件生成模型

相关资讯

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和
7/4/2024 5:55:00 PM
机器之心

胡渊鸣全新创业项目Meshy曝光:一句话生成3D游戏资产,仅需一分钟

机器之能报道编辑:吴昕它会是3D AIGC领域的Midjourney 吗?游戏、电影和 XR 行业对 3D 模型的需求正在激增。尤其是当苹果 Vision Pro、Quest 3  等硬件出货量达到一定量级时,市场对 3D 内容需求可能会出现井喷。遗憾的是目前市场供应侧,专业创作者还困顿于漫长的创作时间,而摩拳擦掌的业余玩家依旧游离在复杂的创作工具之外。随着生成 AI 技术的兴起,如何打造一款全新的 3D 内容生成工具,加速制作流程,弥合市场供需之间的巨大落差,正成为一些技术大神们关注的方向。Meshy  就是这样
11/28/2023 1:18:00 PM
机器之能

大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩

为满足元宇宙中对 3D 创意工具不断增长的需求,三维内容生成(3D AIGC)最近受到相当多的关注。并且,3D 内容创作在质量和速度方面都取得了显著进展。尽管当前的前馈式生成模型可以在几秒钟内生成 3D 对象,但它们的分辨率受到训练期间所需密集计算的限制,进而导致生成低质量的内容。这就产生了一个问题,能否只用 5 秒钟来生成高分辨率高质量的 3D 物体?本文中,来自北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了一个新的框架 LGM,即 Large Gaussian Model,实现了从单视角
2/20/2024 2:31:00 PM
机器之心
  • 1