AI在线 AI在线

用2D数据解锁3D世界:首个面向运动学部件分解的多视角视频扩散框架

张昊,伊利诺伊大学香槟分校(UIUC)博士生,研究方向涵盖 3D/4D 重建、生成建模与物理驱动动画。 目前在 Snap Inc. 担任研究实习生,曾于 Stability AI 和 上海人工智能实验室实习。

图片

张昊,伊利诺伊大学香槟分校(UIUC)博士生,研究方向涵盖 3D/4D 重建、生成建模与物理驱动动画。目前在 Snap Inc. 担任研究实习生,曾于 Stability AI 和 上海人工智能实验室实习。本项目 Stable Part Diffusion 4D (SP4D) 由 Stability AI 与 UIUC 联合完成,能够从单目视频生成时空一致的多视角 RGB 与运动学部件序列,并进一步提升为可绑定的三维资产。个人主页:https://haoz19.github.io/

图片
  • 论文标题:Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation

  • 论文链接:https://arxiv.org/pdf/2509.10687

  • 项目主页:https://stablepartdiffusion4d.github.io/

研究背景与动机用2D数据解锁3D世界:首个面向运动学部件分解的多视角视频扩散框架

在角色动画和 3D 内容制作中,rigging(骨骼绑定)与部件分解是实现可动画化资产的核心。然而,现有方法存在明显局限:

  • 自动 rigging:依赖规模有限的 3D 数据集及骨骼/蒙皮标注,难以覆盖多样化的物体形态与复杂姿态,导致模型泛化性不足。

  • 部件分解:现有方法多依赖语义或外观特征(如「头部」、「尾部」、「腿」等)进行分割,缺乏对真实运动学结构的建模,结果在跨视角或跨时间序列上往往不稳定,难以直接应用于动画驱动。

图片

为此,我们提出核心动机:利用大规模 2D 数据和预训练扩散模型的强大先验知识,来解决运动学部件分解的问题,并进一步延伸到自动 rigging。 这一思路能够突破 3D 数据稀缺的瓶颈,让 AI 真正学会生成符合物理运动规律的 3D 可动画资产。

图片

研究方法与创新

基于这一动机,我们提出了 Stable Part Diffusion 4D (SP4D) —— 首个面向运动学部件分解的多视角视频扩散框架。主要创新包括:

  • 双分支扩散架构:同时生成外观与运动学结构,实现 RGB 与部件的联合建模。

  • BiDiFuse 双向融合模块:实现 RGB 与部件信息的跨模态交互,提高结构一致性。

  • 对比一致性损失:确保同一部件在不同视角、不同时间下保持稳定一致。

  • KinematicParts20K 数据集:团队基于 Objaverse-XL 构建超过 20,000 个带骨骼注释的对象,提供高质量训练与评估数据。

这一框架不仅能生成时空一致的部件分解,还能将结果提升为 可绑定的 3D 网格,推导骨骼结构与蒙皮权重,直接应用于动画制作。

实验结果

在 KinematicParts20K 验证集上,SP4D 相较现有方法取得了显著提升:

  • 分割精度:mIoU 提升至 0.68,相比 SAM2(0.15)与 DeepViT(0.17)大幅领先。

  • 结构一致性:ARI 达到 0.60,远高于 SAM2 的 0.05。

  • 用户研究:在「部件清晰度、跨视角一致性、动画适配性」三项指标上,SP4D 平均得分 4.26/5,显著优于 SAM2(1.96)和 DeepViT(1.85)2509.10687v1。

图片

在 自动 rigging 任务中,SP4D 也展现出更强的潜力:

  • 在 KinematicParts20K-test 上,SP4D 的 Rigging Precision 达到 72.7,相比 Magic Articulate(63.7)和 UniRig(64.3)有明显优势。

  • 在用户评估的动画自然度上,SP4D 平均得分 4.1/5,远高于 Magic Articulate(2.7)与 UniRig(2.3),展现出对未见类别与复杂形态的更好泛化。

这些结果充分证明了 2D 先验驱动的思路 不仅能解决 kinematic part segmentation 的长期难题,还能有效延伸到自动 rigging,推动动画与 3D 资产生成的全自动化。

图片

结语

Stable Part Diffusion 4D (SP4D) 不仅是技术上的突破,也是一次跨学科合作的成果,并且被 Neurips 2025 接受为 Spotlight。它展示了如何利用大规模 2D 先验打开 3D 运动学建模与自动 rigging 的新局面,为动画、游戏、AR/VR、机器人模拟等领域的自动化与智能化奠定了基础。

相关资讯

SD WebUI 中也能用上实时绘画了!支持接入PS/Blender 等设计工具

大家好,这里是和你们一起探索 AI 绘画的花生~ 之前为大家介绍过 AI 绘画工具 Krea,它可以根据手绘的草图实时生成完整的画面,可以让我们更精准地控制图像效果,对电商、产品、游戏概念等设计领域来说非常有帮助。之前为大家推荐过一种在 ComfyUI 中免费实现 AI 实时绘画的方式,今天就再为大家推荐另一种在 Stable Diffusion WebUI 中实现实时绘画的方法。一、插件简介 SD WebUI 的实时绘画功能需要借助一个插件实现,这个插件是上周由 B 站 AI 绘画博主@朱尼酱推出,支持文生图、图
1/23/2024 6:55:37 AM
夏花生

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

大家好,我是花生~ 最近 Stability AI 又接连推出了 2 个新的模型:Stable Diffusion 3 和 Stable Cascade,在图像生成效率和质量上比半年前推出的 SDXL 1.0 有了明显提升,今天就为大家介绍一下 2 款新模型的特点和用法。 :一、Stable Diffusion 3 简介 官方介绍: 加入等候名单: 2 月 22 号,Stability AI 发布了新模型 Stable Diffusion 3(下面简称为 SD 3.0),这也是 Stable Diffusion
2/26/2024 8:13:29 AM
夏花生

AI绘画神器Stable Diffusion模型再升级!新版亮点全面盘点!

大家好,这里是和你们聊设计的花生~ 之前为大家对比了 6 款在线 AI 绘画软件在不同主题上的图像生成效果,最终是 Midjourney 的整体表现最好,而 Stability AI 官方模型 Stable Diffusion v2.1 则表现不尽如人意。最近 Stability AI 又推出了一个新模型 Stable Diffusion XL,参数是 SD v2.1 的 2.5 倍,那这个新模型的图像生成效果如何呢?今天就继续来测试一下。 往期回顾:Stable Diffusion XL 简介 DreamStud
4/18/2023 8:39:13 AM
夏花生
  • 1