相信很多人已经领会过天生式 AI 技术的魅力,特别是在经历了 2022 年的 AIGC 爆发之后。以 Stable Diffusion 为代表的文本到图象天生技术一度风靡全球,无数用户涌入,借助 AI 之笔表达自己的艺术想象……
相比于图象编纂,视频编纂是一个更具有挑战性的议题,它需要合成新的动作,而不仅仅是修改视觉外表,此外还需要保持时候上的一致性。
在这条赛道上探索的公司也不少。前段时候,谷歌发布的 Dreamix 以将文本条件视频分散模型(video diffusion model, VDM)应用于视频编纂。
近日,曾参与创建 Stable Diffusion 的 Runway 公司推出了一个新的人工智能模型「Gen-1」,该模型通过应用文本 prompt 或参考图象指定的任何格调,可将现有视频转化为新视频。
论文链接:https://arxiv.org/pdf/2302.03011.pdf
项目主页:https://research.runwayml.com/gen1
2021 年,Runway 与慕尼黑大学的钻研人员合作,建立了 Stable Diffusion 的第一个版本。随后英国的一家初创公司 Stability AI 介入,资助了在更多数据上训练模型所需的计算费用。2022 年,Stability AI 将 Stable Diffusion 纳入主流,将其从一个钻研项目转变为一个全球现象。
Runway 表示,希望 Gen-1 能像 Stable Diffusion 在图象上所做的那样为视频服务。
「我们已经看到图象天生模型的大爆炸,」Runway 首席执行官兼联合创始人 Cristóbal Valenzuela 说。「我真的相信,2023 年将是视频之年。」
具体来说,Gen-1 支持几种编纂模式:
1、格调化。将任何图象或 prompt 的格调转移到视频的每一帧。
2、故事板。将模型变成完全格调化和动画的渲染。
3、遮罩。分离视频中的主题并使用简单的文本 prompt 对其从事修改。
4、渲染。通过应用输出图象或 prompt,将无纹理渲染变成逼真的输出。
5、定制化。通过自定义模型以获得更高保真度的结果,释放 Gen-1 的全部功能。
在该公司官方网站上发布的 demo 中,揭示了 Gen-1 如何丝滑地更改视频格调,来看几个示例。
比如将「街道上的人」变成「粘土木偶」,只需要一行 prompt:
或者将「堆放在桌上的书」变成「夜晚的城市景观」:
从「雪地上的奔跑」到「月球漫步」:
年轻女孩,竟然秒变古代先哲:
论文细节
视觉特效和视频编纂在当代媒体领域无处不在。随着以视频为中心的平台的普及,对更直观、性能更强的视频编纂工具的需求也在增加。然而,由于视频数据的时候性,在这种格式下的编纂仍然是复杂和耗时的。最先进的机器学习模型在改善编纂进程方面显示出了巨大的前景,但很多方式不得不在时候一致性和空间细节之间取得平衡。
由于引入了在大规模数据集上训练的分散模型,用于图象合成的天生方式最近在质量和受欢迎程度上经历了一个快速增长阶段。一些文本条件模型,如 DALL-E 2 和 Stable Diffusion,使新手只需输出一个文本 prompt 就能天生详细的图象。潜在分散模型提供了有效的方式,通过在感知压缩的空间中从事合成来天生图象。
在本论文中,钻研者提出了一个可控的布局和实质感知的视频分散模型,该模型是在未加字幕的视频和配对的文本 – 图象数据的大规模数据集上训练的。钻研者选择用单目深度估计来表征布局,用预训练的神经网络预测的嵌入来表征实质。
该方式在其天生进程中提供了几种强大的控制模式:首先,与图象合成模型类似,钻研者训练模型使推断出的视频实质,如其外表或格调,与用户提供的图象或文本 prompt 相匹配(图 1)。其次,受分散进程的启发,钻研者对布局表征应用了一个信息掩蔽进程,以便能够选择模型对给定布局的支持程度。最后,钻研者通过一个自定义的指导方式来调整推理进程,该方式受到无分类指导的启发,以实现对天生片段的时候一致性的控制。
总体来说,本钻研的亮点如下:
通过在预训练图象模型中引入时候层,并在图象和视频上从事联合训练,将潜在分散模型扩展到了视频天生领域;
提出了一个布局和实质感知的模型,在样本图象或文本的指导下修改视频。编纂工作完全是在推理时候内从事的,不需要额外对每个视频从事训练或预处理;
揭示了对时候、实质和布局一致性的完全控制。该钻研首次表明,对图象和视频数据的联合训练能够让推理时候控制时候的一致性。对于布局的一致性,在表征中不同的细节水平上从事训练,可以在推理进程中选择所需的设置;
在一项用户钻研中,本文的方式比其他几种方式更受欢迎;
通过对一小部分图象从事微调,可以进一步定制训练过的模型,以天生更准确的特定主体的视频。
方式
就钻研目的而言,从实质和布局的角度来考虑一个视频将是有帮助的。对于布局,此处指的是形容其几何和动态的特征,比如主体的形状和位置,以及它们的时候变化。对于实质,此处将其定义为形容视频的外表和语义的特征,比如物体的颜色和格调以及场景的照明。Gen-1 模型的目标是编纂视频的实质,同时保留其布局。
为了实现这一目标,钻研者学习了视频 x 的天生模型 p (x|s, c),其条件是布局表征(用 s 表示)和实质表征(用 c 表示)。他们从输出视频推断出形状表征 s,并根据形容编纂的文本 prompt c 对其从事修改。首先,形容了对天生模型的实现,作为一个条件潜在的视频分散模型,然后,形容了对形状和实质表征的选择。最后,讨论了模型的优化进程。
模型布局如图 2 所示。
实验
为了评估该方式,钻研者采用了 DAVIS 的视频和各种素材。为了自动创建编纂 prompt,钻研者首先运行了一个字幕模型来获得原始视频实质的形容,然后使用 GPT-3 来天生编纂 prompt。
定性钻研
如图 5 所示,结果证明,本文的方式在一些不同的输出上表现良好。
用户钻研
钻研者还使用 Amazon Mechanical Turk(AMT)对 35 个有代表性的视频编纂 prompt 的评估集从事了用户钻研。对于每个样本,均要求 5 个注解者在基线方式和本文方式之间对比对视频编纂 prompt 的忠实度(「哪个视频更好地代表了所提供的编纂过的字幕?」),然后以随机顺序呈现,并使用多数票来决定最终结果。
结果如图 7 所示:
定量评估
图 6 揭示了每个模型使用本文框架一致性和 prompt 一致性指标的结果。本文模型在这两方面的表现都倾向于超越基线模型(即,在图的右上角位置较高)。钻研者还注意到,在基线模型中增加强度参数会有轻微的 tradeoff:更大的强度缩放意味着更高的 prompt 一致性,代价是更低的框架一致性。同时他们还观察到,增加布局缩放会导致更高的 prompt 一致性,因为实质变得不再由输出布局决定。
定制化
图 10 揭示了一个具有不同数量的定制步骤和不同水平的布局依附性 ts 的例子。钻研者观察到,定制化提高了对人物格调和外表的保真度,因此,尽管使用具有不同特征的人物的驱动视频,但结合较高的 ts 值,还是可以实现精确的动画效果。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/21236