AI在线 AI在线

物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

最近,来自大连理工和莫纳什大学的团队提出了物理真实的视频生成框架 VLIPP。 通过利用视觉语言模型来将物理规律注入到视频扩散模型的方法来提升视频生成中的物理真实性。 论文主页: : ,能够生成高度逼真的视频内容,其作为世界模拟器的潜力已引起学界广泛关注。

最近,来自大连理工和莫纳什大学的团队提出了物理真实的视频生成框架 VLIPP。通过利用视觉语言模型来将物理规律注入到视频扩散模型的方法来提升视频生成中的物理真实性。

图片

  • 论文主页: https://madaoer.github.io/projects/physically_plausible_video_generation/
  • 论文链接: https://arxiv.org/abs/2503.23368

物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

视频扩散模型近年来取得了显著进展,能够生成高度逼真的视频内容,其作为世界模拟器的潜力已引起学界广泛关注。然而,尽管功能强大,这类模型由于内在物理理解的缺失,相信大家在使用 VDMs 的时候一定会发现问题:VDMs 生成的视频并不符合物理规律。即使是商用的闭源模型,在物理场景上的表现也不够理想。

图片

本文认为这样的局限有两个原因,首先是视频扩散模型的训练数据一般是文本 - 视频对,其中包含物理现象的数据占比很少,且物理现象在视频中表现存在高度的抽象性和多样性,很难去获取合适的数据来进行训练。其次,扩散模型更多依赖记忆和案例模仿,无法抽象出一般的物理规则,无法真正理解物理。

为突破这一局限,本文提出了一种新颖的符合物理规律的视频生成框架,通过显式引入物理约束来解决该问题。作者发现语言模型对于物理有一定的理解能力,如果告诉语言模型两个正在发生碰撞的小球的位置,它能够大概地预测出这两个小球在发生碰撞之后的后续位置。受此启发,本文提出的生成框架包含两个阶段,第一阶段将视觉语言模型作为粗粒度的运动规划器,使其提供一个粗略的物理可能的运动路径,第二阶段将视频扩散模型作为一个细粒度的运动合成器,根据上一阶段预测的物理可能的路径来生成细粒度的运动。

实验结果表明,本文提出的框架能生成符合物理规律的运动序列,对比评估显示了该方法相较于现有技术在物理视频生成上的显著优越性。这一成果证明了将语言模型的物理知识先验引入扩散模型的可能性,并为扩散模型作为世界模拟器带来了更大的可能性。

方法

图片

在这项工作中,研究者们提出了一种针对物理场景的视频生成框架,如上图所示,利用视觉语言模型理解物理定律和规划可能的运动路径,根据预测的路径在运动可控的扩散模型中生成视频。

具体来说,在第一阶段中,作者将视频中常见的物理现象分为六类:重力、动量守恒、光学、热力学、磁学和流体力学,语言模型根据视频的场景描述提取符合该场景的物理定律,结合物理定律和图像信息进行思维链式推理,逐步分析物理定律带来的影响,以及其在视觉空间上的对应,最终预测出图像空间内对象的未来边界框位置。

图片

第二阶段中,扩散模型需要根据预测的运动路径进行视频生成。作者认为在上一阶段中视觉语言模型可能存在幻觉和规划错误的情况,因此规划的路径只能作为粗粒度的运动引导。在本阶段通过规划的运动路径合成运动序列,并根据光流计算得到结构化噪声,结合视频扩散模型的生成先验来细化粗略的生成先验,以生成与真实世界动态一致的物理上合理的运动。

实验结果

图片

图片

图片

图片

在实验环节,本文在两个评估物理场景视频真实性的指标上与现有的方法进行了定性和定量的对比。如图和表所示,本文的方法在两个评估指标 Physical-IQ 和 PhyGenBench 上都取得了最佳的表现效果,并在机械运动、流体运动、热力学和材料学等方面表现突出。

图片

下面展示更多的实验结果。

图片

图片

图片

图片

图片

图片

结论

虽然 VDMs 现在能够生成视觉真实程度非常高的视频,但由于它本身缺乏对于物理定律的理解从而无法生成物理可能的视频。本论文提出了新颖的视频生成框架,通过将物理定律注入到 VDMs 中来提升对物理的理解。实验结果验证了我们的视频生成框架要明显优于现在的方法。这一成果证明了将语言模型的物理知识先验引入扩散模型的可能性,并为扩散模型作为世界模拟器带来了更大的可能性。

相关资讯

多重可控插帧视频生成编辑,Adobe这个大一统模型做到了,效果惊艳

本文一作 Maham Tanveer 是 Simon Fraser University 的在读博士生,主要研究方向为艺术视觉生成和创作,此前在 ICCV 发表过艺术字体的生成工作。 师从 Hao (Richard) Zhang, IEEE Fellow, Distinguished Professor, 并担任 SIGGRAPH 2025 Paper Chair. 本文尾作 Nanxuan (Cherry)  Zhao 在 Adobe Research 担任 Research Scientist, 研究方向为多模态可控生成和编辑,有丰富的交叉方向研究经历(图形学 图像 人机交互),致力于开发可以让用户更高效进行设计创作的算法和工具。
2/3/2025 12:16:01 PM
机器之心

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

针对视频生成中的运动一致性难题,Meta GenAI团队提出了一个全新框架VideoJAM。 VideoJAM基于主流的DiT路线,但和Sora等纯DiT模型相比,动态效果直接拉满:哪怕变化又大又迅速、动作又复杂的舞蹈,也看起来像真的一样,而且还是两个人同步:像倒立这样的操作,同样可以轻松驾驭:而且不需要额外数据或缩放,就能无缝集成到不同规模的DiT模型当中,带来运动效果的提升。 有网友表示,第一眼看上去就和真的一样,也许到今年年底,我们看不到区别了。
2/10/2025 1:15:00 PM
量子位

开源AI短剧神器来了,单卡即可部署!好莱坞效果人人可享,昆仑万维出品

开源AI短剧神器来了! 来自昆仑万维,一次性开源两大视频模型——国内首个面向AI短剧创作的视频生成模型SkyReels-V1;国内首个SOTA级别基于视频基座模型的表情动作可控算法SkyReels-A1。 当前全球AI视频生成模型和产品面临着不开源、用不到、费用高、不好用等痛点。
2/18/2025 11:09:27 AM
量子位
  • 1