本篇文章是北京大学、字节跳动和卡耐基梅隆大学的联合工作。
我们提出了 PartCrafter,一种新颖的结构化 3D 生成模型,为 3D 对象创建引入了一种变革性的方法。PartCrafter 不仅能生成可分解的 3D 网格,还支持灵活的部件编辑,为创作者提供了更高的自由度。它打破了传统的整体式 3D 模型生成规范,不仅彻底改变了 3D 模型的生成方式,还显著增强了 3D AIGC 的基础模型能力和可解释性。
Partcrafter 是一个结构化的3D生成模型,无需分割步骤,可以秒级生成带多个部件的 3D Mesh 表示
第一性原理
1. 为什么 part-level 的生成如此重要?从简单的生成到实际可用:
- 文本的“逐token”生成
- 图像的“分层”生成
- 3D的“分部件”生成
2. 潜在应用:3D资产二次创作(游戏资产开发)、具身智能(关节点)、3D打印(泡泡玛特)等
- 绑定关节点,并生成 URDF 文件
- 3D资产二次创作
社交媒体上,开发者对 PartCrafter 的创新性反响热烈,认为其“简单而有效”的设计理念重新定义了 3D 生成的范式。Github 已累计达到 2k star,在 3D 生成领域的专家和学者们纷纷转发与评论,相关推特累计达到百万次浏览。PartCrafter 的训练数据、代码和模型已经完全开源。
- 论文标题:PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers
- 项目主页:https://wgsxm.github.io/projects/partcrafter/
- 论文链接:https://arxiv.org/abs/2506.05573
- 代码链接:https://github.com/wgsxm/PartCrafter
技术方法
传统部件级别 3D 生成方法通常采用两阶段流程,先对图像进行语义分割,再逐一重建部件,效率低(~20分钟)且易受分割错误影响。PartCrafter 通过统一生成架构,消除了对预分割的依赖,同时在生成质量和计算效率上实现双重突破。PartCrafter 能在约40秒内完成从单张图像到结构化 3D 模型的生成,效率远超传统方法。
PartCrafter 引入组合式潜在空间来同时建模每个 3D 部件之间的联系,通过局部-全局注意力机制来保证生成过程中各部件的语义独立性和整体的保真程度。
Partcrafter 网络结构设计
1.组合式潜在空间(Compositional Latent Space)
每一个3D部件都对应一组解耦的 latent token 表示,模型能理解各个部件的独立性与语义含义。为了区分不同部件,模型还为每组 token 添加了一个可学习的“部件身份嵌入”(Part Identity Embedding),增强对部件级别的结构感知。
2. 局部-全局联合去噪 Transformer
(Local-Global Denoising Transformer)
PartCrafter 并非简单地单独生成每个部件,而是引入了一个局部与全局融合的推理机制:
- 局部信息用于保证每个部件内部结构的一致性;
- 全局信息用于协调多个部件之间的空间和语义关系;
- 图像条件(RGB输入)被同时引入局部与全局分支,确保生成内容既独立又具整体性。
数据构造
现有的大型3D数据集虽包含丰富的模型,但真正具备部件级标注的资源仍较稀缺。为此,PartCrafter 团队自建了一个高质量训练数据集:
为支持部件级生成,PartCrafter 团队精心构建了一个包含13万个 3D 对象的大型数据集,其中10万个对象具备多部件标注。这些数据整合了 Objaverse、ShapeNet、ABO 等知名 3D 资源库,通过挖掘部件级标注,为模型训练提供了丰富的监督信息。这一数据集的开放将为 3D 生成领域的研究提供宝贵资源,助力更多团队探索结构化建模的潜力。
筛选标准:
- 材质贴图质量(texture quality)
- 拆分部件数量(part count)
- 各部件之间的平均交并比(IoU)
最终构成:
- 精选出约 5万个 具备精细部件标签的对象
- 包含超过 30万个独立 3D 部件,构成强监督训练的核心资源
数据分布图展示了不同 3D 对象的部件数量统计,说明模型训练覆盖了从少数部件到复杂组合的广泛结构类型。
实验结果
PartCrafter 可以同时适用于(1)部件级别的3D物体生成;(2)物体组合的3D场景生成。团队在这两种设定下开展了丰富全面的实验。
1. 定量结果
1.1 物体数据集上的重建结果
在物体级和部件级指标上, PartCrafter 的性能都远超 HoloPart 。给定一张图像, PartCrafter 能够在数秒内生成一个高保真、几何独立且可按部件分解的 3D 网格。相比之下, HoloPart 需要更多时间来分割物体网格,并且其分割过程会因生成网格的几何质量低于真实的艺术创作网格而受到影响,从而限制了其性能。值得注意的是,即使当我们将骨干模型 TripoSG 中的 token 数量与我们的方法对齐时, 在物体级指标上仍然优于 TripoSG .
1.2 场景数据集上的重建结果
MIDI 在评估时使用了真实的分割掩码(ground truth segmentation masks),但 PartCrafter 则完全不需要任何分割操作。为了进一步验证我们方法的有效性,我们从 3D-Front 数据集中选取了一个包含严重遮挡的 3D 场景子集,在这些场景中,真实的分割掩码无法分割出所有物体。我们观察到,在场景遮挡情况下, MIDI 的性能出现了显著下降,而 PartCrafter 仍然能够保持高水平的生成质量。
2. 定性结果
2.1 3D物体重建效果
2.2 3D场景重建效果
2.3 用户指定 Part 生成的颗粒度
PartCrafter 的组合式潜在空间设计使得颗粒度控制成为可能。通过指定潜在向量集合的个数,用户可以实现部件分割颗粒度的控制。