AI在线 AI在线

CVPR 2025 Highlight | 清华提出一键式视频扩散模型VideoScene,从视频到 3D 的桥梁,一步到位!

清华大学的研究团队首次提出了一种一步式视频扩散技术 VideoScene,专注于 3D 场景视频生成。 它利用了 3D-aware leap flow distillation 策略,通过跳跃式跨越冗余降噪步骤,极大地加速了推理过程,同时结合动态降噪策略,实现了对 3D 先验信息的充分利用,从而在保证高质量的同时大幅提升生成效率。 实验证明VideoScene可弥合从视频到 3D 的差距。

清华大学的研究团队首次提出了一种一步式视频扩散技术 VideoScene,专注于 3D 场景视频生成。它利用了 3D-aware leap flow distillation 策略,通过跳跃式跨越冗余降噪步骤,极大地加速了推理过程,同时结合动态降噪策略,实现了对 3D 先验信息的充分利用,从而在保证高质量的同时大幅提升生成效率。实验证明VideoScene可弥合从视频到 3D 的差距。

CVPR 2025 Highlight | 清华提出一键式视频扩散模型VideoScene,从视频到 3D 的桥梁,一步到位!

CVPR 2025 Highlight | 清华提出一键式视频扩散模型VideoScene,从视频到 3D 的桥梁,一步到位!

视频结果

CVPR 2025 Highlight | 清华提出一键式视频扩散模型VideoScene,从视频到 3D 的桥梁,一步到位!CVPR 2025 Highlight | 清华提出一键式视频扩散模型VideoScene,从视频到 3D 的桥梁,一步到位!CVPR 2025 Highlight | 清华提出一键式视频扩散模型VideoScene,从视频到 3D 的桥梁,一步到位!

相关链接

  • 论文: https://arxiv.org/abs/2504.01956
  • 项目: https://hanyang-21.github.io/VideoScene
  • 代码: https://github.com/hanyang-21/VideoScene

论文介绍

VideoScene:提取视频扩散模型,一步生成 3D 场景VideoScene:提取视频扩散模型,一步生成 3D 场景

从稀疏视图中恢复 3D 场景是一项具有挑战性的任务,因为它存在固有的不适定问题。传统方法已经开发出专门的解决方案(例如,几何正则化或前馈确定性模型)来缓解该问题。然而,由于输入视图之间的最小重叠和视觉信息不足,它们仍然会导致性能下降。幸运的是,最近的视频生成模型有望解决这一挑战,因为它们能够生成具有合理 3D 结构的视频片段。在大型预训练视频扩散模型的支持下,一些先驱研究开始探索视频生成先验的潜力,并从稀疏视图创建 3D 场景。尽管取得了令人瞩目的改进,但它们受到推理时间慢和缺乏 3D 约束的限制,导致效率低下和重建伪影与现实世界的几何结构不符。在本文中,我们提出VideoScene来提炼视频扩散模型以一步生成 3D 场景,旨在构建一个高效的工具来弥合从视频到 3D 的差距。具体来说,我们设计了一种 3D 感知的跳跃流精炼策略,用于跳过耗时的冗余信息,并训练了一个动态去噪策略网络,以便在推理过程中自适应地确定最佳跳跃时间步长。大量实验表明,我们的 VideoScene 比以往的视频扩散模型实现了更快、更优异的 3D 场景生成结果,凸显了其作为未来视频到 3D 应用高效工具的潜力。

方法概述

CVPR 2025 Highlight | 清华提出一键式视频扩散模型VideoScene,从视频到 3D 的桥梁,一步到位!VideoScene 的流程。 给定输入对视图,我们首先使用快速前馈 3DGS 模型(即MVSplat)生成粗略的 3D 表示,从而实现精确的摄像机轨迹控制渲染。编码后的渲染潜在向量(“输入”)和编码后的输入对潜在向量(“条件”)组合在一起,作为一致性模型的输入。随后,执行前向扩散操作,为视频添加噪声。然后,将加噪视频分别发送给学生模型和教师模型,以预测视频。最后,通过蒸馏损失和 DDP 损失分别更新学生模型和 DDPNet。

结果展示

CVPR 2025 Highlight | 清华提出一键式视频扩散模型VideoScene,从视频到 3D 的桥梁,一步到位!

定性比较。可以观察到基线模型存在诸如模糊、跳帧、过度运动以及物体相对位置偏移等问题,而 VideoScene 实现了更高的输出质量和更好的 3D 连贯性。

结论

VideoScene是一种新颖的快速视频生成框架,它通过提炼视频扩散模型,一步生成 3D 场景。具体而言,利用3D先验知识约束优化过程,并提出一种 3D 感知跳跃流提炼策略,以跳过耗时的冗余信息。此外设计了一个动态去噪策略网络,用于在推理过程中自适应地确定最佳跳跃时间步长。大量实验证明了 VideoScene 在 3D 结构效率和一致性方面的优势,凸显了其作为弥合视频到 3D 差距的高效工具的潜力。

相关资讯

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和
7/4/2024 5:55:00 PM
机器之心

MV-DUSt3R+: 只需2秒!Meta Reality Labs开源最新三维基座模型,多视图大场景重建

本文一作为唐正纲,目前为博士生,就读于伊利诺伊大学厄巴纳 - 香槟分校,本科毕业于北京大学。 通讯作者是严志程,Meta Reality Labs 高级科研研究员 (Senior Staff Research Scientist),主要研究方向包括三维基础模型,终端人工智能 (On-device AI) 和混合现实。 近期,Fei-Fei Li 教授的 World Labs 和 Google 的 Genie 2 展示了 AI 从单图生成 3D 世界的能力。
1/26/2025 2:13:28 PM
机器之心

Chirpy3D:用于创意 3D 鸟类生成的连续部分潜在特征

Chirpy3D框架可以将细粒度的2D图像理解提升至3D生成的全新境界。 当前的3D生成方法往往只关注于重构简单的对象,缺乏细致的特征和创造性。 Chirpy3D通过结合多视角扩散模型和连续的部件潜在空间,能够生成全新且合理的3D鸟类模型。
2/5/2025 11:00:00 AM
AIGC Studio
  • 1