阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

文生视频领域又卷起来了!文生视频可以精细到什么程度?最近,阿里巴巴的一项钻研给出了答案:1280×720 分辨率没有压力,而且生成效果非常连贯。文本提示:A kitten in flowers, Chinese painting.(一只小猫在花丛中,中国画。)文本提示:A yellow robot.(一个黄色的机器人)文本提示:A photo of an ancient shipwreck nestled on the ocean floor. Marine plants have claimed the wood

文生视频领域又卷起来了!

文生视频可以精细到什么程度?最近,阿里巴巴的一项钻研给出了答案:1280×720 分辨率没有压力,而且生成效果非常连贯。

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

文本提示:A kitten in flowers, Chinese painting.(一只小猫在花丛中,中国画。)

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

文本提示:A yellow robot.(一个黄色的机器人)

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

文本提示:A photo of an ancient shipwreck nestled on the ocean floor. Marine plants have claimed the wooden structure…(海底一艘古老沉船的照片。海洋植物侵蚀了木结构……)

这些 demo 来自阿里联合浙江大学、华中科技大学提出的文生视频模型 I2VGen-XL,该模型能够生成各种类别的高质量视频,如艺术画、人像、动物、科幻图等。生成的视频具有高清、高分辨率、平滑、美观等优点,适合广泛的视频内容创作任务。在与 Gen2、Pika 生成效果对比上, I2VGen-XL 生成的视频举动更加丰富,主要表现在更真实、更多样的举动,而 Gen-2 和 Pika 生成的视频似乎更接近静态。阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

I2VGen-XL 效果展示。

除了生成效果,这项工作更令人印象深刻的一点是钻研人员在数据上下的工夫。为了提高生成效果的多样性,钻研人员收集了大约 3500 万单镜头文本 – 视频对和 60 亿文本 – 图象对来优化模型,这是一个非常庞大的数据集,其后续潜力令人期待。

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

论文细节

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

论文地址:https://arxiv.org/pdf/2311.04145.pdf

论文主页:https://i2vgen-xl.github.io/page04.html

该钻研表示得益于扩散模型的快速发展,视频分解最近取得了显著的进步。然而,它在语义的准确性、清晰度和时空连续性方面仍然面临挑战。

出现这种状况的原因一方面是由于缺乏良好的经过对齐的文本 – 视频数据,另一方面在于视频本身复杂的内在结构,使得模型难以同时保证语义和质量的卓越性。

为了解决上述问题,钻研者受到 SDXL 方法的启发,提出了一种级联的 I2VGen-XL 方法,其能够生成具有连贯空间和静止动态化以及细节连续的高清视频。

I2VGen-XL 旨在从静态图象生成高质量视频。因此,它需要实现两个关键目标:语义一致性,即准确预测图象中的意图,然后在保持输出图象的内容和结构的同时生成精确的静止;高时空一致性和清晰度,这是视频的基本属性,对于确保视频创作应用的潜力至关重要。为此,I2VGenXL 通过由两个阶段组成的级联策略分解这两个目标:基础阶段和革新阶段。

基础阶段旨在保证低分辨率下生成视频的语义连贯,同时还要保存输出图象的内容和主体信息。为了达到这一目标,钻研者设计了两个分层编码器,即固定 CLIP 编码器和可学习内容编码器,分别提取高级语义和低级细节,然后将其合并到视频扩散模型中。 

革新阶段:将视频分辨率提高到 1280×720,并革新生成视频中存在的细节和伪影。具体来说,钻研者使用简单的文本作为输出来训练一个独特的视频扩散模型,并优化了其初始的 600 个去噪 step。通过使用噪声去噪过程,该钻研实现了从低分辨率视频生成具有时间和空间一致性的高清视频。

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

具体而言:

基础阶段。基于 VLDM,本文设计的第一阶段是低分辨率(即 448×256),主要侧重于在输出图象上结合多级特征提取,包括高级语义和低级细节学习。

高级语义学习。该钻研表示用 CLIP 的视觉编码器来提取语义特征,这种方法可以学习高级语义,但忽略了图象中精细细节的感知。为了缓解这个问题,本文结合了一个额外的可训练全局编码器来学习具有相同形状的互补特征,其架构如表 1 所示。

低级细节。为了减少细节的损失,本文采用从 VQGAN 编码器(即 D.Enc.)提取的特征,并将它们直接添加到第一帧的输出噪声中。

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

革新阶段。经过基础阶段可以获得具有多样化且语义准确的静止的低分辨率视频。然而,这些视频可能会遇到各种问题,例如噪声、时间和空间抖动以及变形。因此,革新模型有两个主要目标:i)增强视频分辨率,将其从 448 × 256 增加到 1280 × 720 或更高;ii) 提高视频的时空连续性和清晰度,解决时间和空间上的伪影问题。

为了提高视频质量,该钻研训练了一个单独的 VLDM,专门处理高质量、高分辨率数据,并对第一阶段生成的视频采用 SDEdit 引入的噪声去噪过程。

该钻研还使用 CLIP 对文本进行编码,并通过交叉注意力将其嵌入到 3D UNet 中。然后,基于基础阶段的预训练模型,钻研者使用精心挑选的高质量视频训练高分辨率模型,所有视频的分辨率都大于 1280×720。

此外,该钻研还收集了 3500 万个高质量 single-shot 视频和 60 亿张图象,以达到增强 I2VGen-XL 多样性和稳健性的目的。

最后,广泛的实验评估结果表明 I2VGen-XL 可以同时增强生成视频的语义准确性、细节的连续性和清晰度。此外,该钻研还将 I2VGenXL 与当前的顶级方法进行了比较,结果都表明 I2VGenXL 在各种数据上的有效性。

实验结果

与 Gen2 和 Pika 的比较结果

为了证明新方法的有效性,钻研者将 I2VGen-XL 的性能与 Gen-2 和 Pika 进行了比较,二者被公认为是目前文生视频领域最先进的方法。如图 4 所示,作者使用这两种方法的网页界面生成了三种类型图象的视频,包括虚拟、写实和抽象绘画。

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

从这些结果中可以得出以下几个结论:i) 举动的丰富性:I2VGen-XL 的结果显示出更真实、更多样的举动,例如最上方的例子。相比之下,Gen-2 和 Pika 生成的视频似乎更接近静态,这表明 I2VGen-XL 实现了更丰富的静止;ii) ID 保存程度:从这三个样本中可以看出,Gen-2 和 Pika 成功地保存了物体的身份特征,而 I2VGen-XL 则丢失了输出图象的一些细节。在实验中,作者还发现 ID 保存程度和静止强度之间存在一定的权衡关系。I2VGen-XL 在这两个因素之间取得了平衡。

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

I2VGen-XL 生成视频结果。

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

I2VGen-XL 生成视频结果。

革新模型分析

图 3 展示了革新阶段前后生成的视频。这些结果表明,空间细节得到了大幅提升,包括面部和身体特征的细化,以及局部细节中噪音的明显减少。

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

为了进一步阐明革新模型的工作机制,本文在图 7 的频域中分析了在此过程中生成的视频中发生的空间和时间变化。图 7a 显示了四个空间输出的频谱,表明:低质量视频表现出与高频范围内的噪声相似的频率分布,而高质量视频表现出与输出图象的频率分布更相似。将其与图 7b 所示的空间频率分布相结合,可以观察到革新模型有效地保存了低频数据,同时在高频数据中表现出更平滑的变化。从时间维度的角度来看,图 7d 呈现了低质量视频(上)和高质量视频(下)的时间曲线,表明高清视频的连续性有了明显的改善。此外,结合图 7b 和图 7e 可以看出,革新模型在空间和时间域中保存了低频分量,减少了中频分量,并增强了高频分量。这表明时空域中的伪影主要存在于中频范围。

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

定性分析

该钻研还对更广泛的图象进行了实验,包括人脸、3D 卡通、动漫、国画、小动物等类别。结果如图 5 所示,图中可以观察到生成的视频考虑了图象的内容和分解视频的美感,同时还表现出有意义且准确的举动。例如,在第六行,模型准确地捕捉到了小猫可爱的嘴巴举动。这些结果表明 I2VGen-XL 表现出有前途的泛化能力。

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

生成稳定的人体静止仍然是视频分解的主要挑战。因此,该钻研还专门验证了 I2VGen-XL 在人体图象上的稳健性,如图 8 所示。可以观察到,该模型对人体的预测和生成的静止相当真实,具有人体的大部分特征。

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

文本 – 视频

文本到视频分解目前面临的主要挑战之一是高质量视频 – 文本对的收集,这使得与图象分解相比,实现视频和文本之间的语义对齐更加困难。因此,将 Stable Diffusion 等图象分解技术与图象到视频分解相结合,有助于提高生成视频的质量。事实上,为了尊重隐私,该钻研几乎所有样本都是由两者结合生成的。另外,在图 6 中是本文单独生成的样本,可以观察到视频和文本表现出很高的语义一致性。

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

了解更多内容,请参考原论文。

给TA打赏
共{{data.count}}人
人已打赏
应用

韩方认定,LK-99室温超导无法证明,国内团队:延伸资料有神奇特性

2023-12-18 15:19:00

应用

数智上海2023峰会成功举办,百余位大咖齐聚,共论智能立异赋能财产数字化转型

2023-12-18 15:48:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索