谷歌抢先手发布视频天生类AIGC,网友:可以定制电影了

AIGC 已经火了很长空儿了,出现了文本天生图象、文本天生视频、图象天生视频等广泛的应用场景,如今谷歌研讨院的一项新研讨可以让我们根据输出视频天生其他视频了!

我们知道,天生模型和多模态视觉语言模型的进展已经为具备前所未有天生真实性和多样性的大型文本到图象模型铺平了道路。这些模型提供了新的创作过程,但仅限于合成新图象而非编写现有图象。为了弥合这一差距,基于文本的直观编写办法可以对天生和真实图象从事基于文本的编写,并保持这些图象的一些原始属性。与图象类似,近来文本到视频模型也提出了很多,但运用这些模型从事视频编写的办法却很少。在文本指导的视频编写中,用户提供输出视频以及描述天生视频预期属性的文本 prompt,以下图 1 所示。目的有以下三个方面,1)对齐,编写后的视频应符合输出文本 prompt;2)保真度,编写后的视频应保持原始视频的内容,3)质量,编写后的视频应具备高质量。可以看到,视频编写比图象编写更加具有挑战性,它需要合成新的动作,而不仅仅是修改视觉外观。此外还需要保持空儿上的一致性。因此,将 SDEdit、Prompt-to-Prompt 等图象级别的编写办法应用于视频帧上不足以实现很好的效果。图片在近日谷歌研讨院等发表在 arXiv 的一篇论文中,研讨者提出了一种新办法 Dreamix,它受到了 UniTune 的启发,将文本条件视频散布模型(video diffusion model, VDM)应用于视频编写图片论文地址:https://arxiv.org/pdf/2302.01329.pdf项目主页:https://dreamix-video-editing.github.io/文中办法的核心是通过以下两种主要思路使文本条件 VDM 保持对输出视频的高保真度。其一不运用纯噪声作为模型初始化,而是运用原始视频的降级版本,通过缩小尺寸和增添噪声仅保持低时空信息;其二通过微调原始视频上的天生模型来进一步提升对原始视频的保真度。微调确保模型了解原始视频的高分辨率属性。对输出视频的简单微调会促成相对较低的静止可编写性,这是因为模型学会了更倾向于原始静止而不是遵循文本 prompt。研讨者提出了一种新颖的融合微调办法,其中 VDM 也在输出视频各个帧的集合上从事微调,并丢弃了它们的时序。融合微调显著提升了静止编写的质量。研讨者进一步利用其视频编写模型提出了一个新的图象动画框架,以下图  2 所示。该框架包含了几个步骤,比如为图象中的对象和背景设置动画、创建动态相机静止等。他们通过帧复制或几何图象变换等简单的图象处理操作来实现,从而创建粗糙的视频。接着运用 Dreamix 视频编写器对视频从事编写。此外研讨者还运用其微调办法从事目的驱动的视频天生,也即 Dreambooth 的视频版本。图片在实验展示部分,研讨者从事了广泛的定性研讨和人工评估,展示了他们办法的强大能力,具体可参考以下动图。

图片

图片

图片

对于谷歌这项研讨,有人表示,3D + 静止和编写工具可能是下一波论文的热门主题。图片还有人表示:大家可以很快在预算内制作自己的的电影了,你所需要的只是一个绿幕以及这项技术:图片办法概览本文提出了一种新的办法用于视频编写,具体而言:通过逆向被损坏视频从事文本引导视频编写他们采用级联 VDM( Video Diffusion Models ),首先通过下采样对输出视频就行一定的损坏,后加入噪声。接下来是级联散布模型用于采样过程,并以空儿 t 为条件,将视频升级到最终的空儿 – 空间分辨率。在对输出视频从事损坏处理的这一过程中,首先需要从事下采样操作,以得到基础模型(16 帧 24 × 40),然后加入方差为图片高斯噪声,从而进一步损坏输出视频。对于上述处理好的视频,接下来的操作是运用级联 VDM 将损坏掉的低分辨率视频映射到与文本对齐的高分辨率视频。这里的核心思想是,给定一个嘈杂的、空儿空间分辨率非常低的视频,有许多完全可行的、高分辨率的视频与之对应。本文中基础模型从损坏的视频开始,它与空儿 s 的散布过程具有相同的噪声。然后该研讨用 VDM 来逆向散布过程直到空儿 0。最后通过超分辨率模型对视频从事升级。融合视频图象微调仅利用输出视频从事视频散布模型的微调会限制物体静止变化,相反,该研讨运用了一种融合目的,即除了原始目的(左下角)之外,本文还对无序的帧集从事了微调,这是通过「masked temporal attention」来完成的,以防止空儿注意力和卷积被微调(右下)。这种操作允许向静态视频中增添静止。图片推理在应用程序预处理的基础上(Aapplication Dependent Pre-processing,下图左),该研讨支持多种应用,能将输出内容转换为统一的视频格式。对于图象到视频,输出图象被复制并被变换,合成带有一些相机静止的粗略视频;对于目的驱动视频天生,其输出被省略,单独从事微调以维持保真度。然后运用 Dreamix Video Editor(右)编写这个粗糙的视频:即前面讲到的,首先通过下采样损坏视频,增添噪声。然后应用微调的文本引导视频散布模型,将视频升级到最终的空儿空间分辨率。图片实验结果视频编写:下图中 Dreamix 将动作改为舞蹈,并且外观由猴子变为熊,但视频中主体的基本属性没有变:

图片

Dreamix 还可以天生与输出视频空儿信息一致的平滑视觉修改,以下图会滑滑板的小鹿:

图片

图象到视频:当输出是一张图象时,Dreamix 可以运用其视频先验增添新的移动对象,以下图中增添了在有雾的森林中出现一头独角兽,并放大。

图片

小屋旁边出现企鹅:

图片

目的驱动视频天生:Dreamix 还可以获取显示相同主题的图象集合,并以该主题为静止对象天生新的视频。以下图是一条在叶子上蠕动的毛毛虫:

图片

除了定性分析外,该研讨还从事了基线比较,主要是将 Dreamix 与 Imagen-Video、 Plug-and-Play (PnP) 两种基线办法从事对比。下表为评分结果:图片图 8 展示了由 Dreamix 编写的视频和两个基线示例:文本到视频模型实现了低保真度的编写,因为它不以原始视频为条件。PnP 保持了场景,但不同帧之间缺乏一致性;Dreamix 在这三个目的上都表现良好。图片更多技术细节请参阅原论文。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/26767

(0)
上一篇 2023年2月3日 下午4:13
下一篇 2023年2月5日 下午12:49

相关推荐

  • 多模态文档LayoutLM版面智能理解技术演进-纪传俊

    LayoutLM经过从1.0到3.0版本的迭代,不断优化模型,可见多模态技术对于文档理解的可行性和未来巨大的潜力未读抱拳拒绝赞感谢找文档图片文件@消息更多酷应用

    2022年12月20日
  • CVPR23 Highlight | 多模态新任意、新数据集:NTU提出狭义援用朋分问题GRES

    援用抒发朋分(Referring Expression Segmentation,简称援用朋分或RES)是一个基础的视觉语言多模态任意。给定一张图象和一个描述该图象中某个东西的自然语言抒发式,RES旨在找到该标的东西并将其朋分。现有的援用朋分数据集和要领通常仅支持单标的抒发式,即一个抒发式指代一个标的东西。而对于多标的和无标的抒发式的情况,则没有考虑在内。严重限制了援用朋分的实际应用。基于这个问题,来自新加坡南洋理工大学的研究者们定义了一个名为狭义援用朋分(Generalized Referring Expression Segmentation,GRES)的新任意,将典范的援用朋分扩展到允许抒发式指代任意数量的标的东西。同时,文章还构建了第一个大规模的GRES数据集gRefCOCO,其同时包括多标的、无标的和单标的抒发式。

    2023年6月30日
  • 用大模型,火山引擎要把数据飞轮「转」起来

    在大模型对千行百业的改造进程中,火山引擎率先交出了一份数据行业的个性化答案。9 月 19 日,在上海举办的 “数据飞轮・V-Tech 数据驱动科技峰会” 上,火山引擎宣布数智平

    2023年9月20日

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注