一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

视频 PS 可以灵活到什么程度?最近,微软的一项研讨提供了答案。在这项研讨中,你只要给 AI 一张照片,它就能生成照片中人物的视频,而且人物的表情、举动都是可以通过文字进行控制的。比如,如果你给的指令是「张嘴」,视频中的人物就会真的张开嘴。如果你给的指令是「伤心」,她就会做出伤心的表情和头部举动。当给出指令「惊讶」,假造人物的抬头纹都挤到一起了。此外,你还可以给定一段语音,让假造人物的嘴型、举动都和语音对上。或者给定一段真人视频让假造人物去模仿。如果你对假造人物举动有更多的自定义编辑需求,比如让他们点头、转头或歪头

视频 PS 可以灵活到什么程度?最近,微软的一项研讨提供了答案。

在这项研讨中,你只要给 AI 一张照片,它就能生成照片中人物的视频,而且人物的表情、举动都是可以通过文字进行控制的。比如,如果你给的指令是「张嘴」,视频中的人物就会真的张开嘴。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

如果你给的指令是「伤心」,她就会做出伤心的表情和头部举动。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

当给出指令「惊讶」,假造人物的抬头纹都挤到一起了。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

此外,你还可以给定一段语音,让假造人物的嘴型、举动都和语音对上。或者给定一段真人视频让假造人物去模仿。一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

如果你对假造人物举动有更多的自定义编辑需求,比如让他们点头、转头或歪头,这项技术也是支持的。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

这项研讨名叫 GAIA(Generative AI for Avatar,用于假造形象的生成式 AI),其 demo 已经开始在社交媒体传播。不少人对其效果表示赞叹,并希望用它来「复活」逝者。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

但也有人担心,这些技术的持续进化会让网络视频变得更加真假难辨,或者被不法分子用于诈骗。看来,反诈手段要继续升级了。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

GAIA 有什么创新点?

会语言的假造人物生成旨在根据语音合成当然视频,生成的嘴型、表情和头部姿势应与语音内容一致。以往的研讨通过实施特定假造人物训练(即为每个假造人物训练或调整特定模型),或在推理过程中利用模板视频实现了高质量的结果。最近,人们致力于设计和改进零样本会语言的假造人物的生成要领(即仅有一张目标假造人物的肖像图片可以用于表面参照)。不过,这些要领通过采用基于 warping 的静止表示、3D Morphable Model(3DMM)等领域先验来降低任务难度。这些启发式要领虽然有效,但却阻碍了从数据分布中直接学习,并可能导致不当然的结果和有限的多样性。

本文中,来自微软的研讨者提出了 GAIA(Generative AI for Avatar),其能够从语音和单张肖像图片合成当然的会语言的假造人物视频,在生成过程中消除了领域先验。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

项目地址:https://microsoft.github.io/GAIA/

论文地址:https://arxiv.org/pdf/2311.15230.pdf

GAIA 揭示了两个关键洞见:

用语音来启动假造人物静止,而假造人物的背景和表面(appearance)在整个视频中保持不变。受此启发,本文将每一帧的静止和表面分开,其中表面在帧之间共享,而静止对每一帧都是唯一的。为了根据语音预测静止,本文将静止序列编码为静止潜伏序列,并使用以输出语音为条件的集中模型来预测潜伏序列;

当一个人在说出给定的内容时,表情和头部姿态存在巨大的多样性,这需要一个大规模和多样化的数据集。因此,该研讨收集了一个高质量的能语言的假造人物数据集,该数据集由 16K 个不同年龄、性别、皮肤类型和语言风格的独特语言者组成,使生成结果当然且多样化。

根据上述两个洞见,本文提出了 GAIA 框架,其由变分自编码器 (VAE)(橙色模块)和集中模型(蓝色和绿色模块)组成。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

VAE 主要用来分解静止和表面,其包含两个编码器(即静止编码器和表面编码器)和一个解码器。在训练过程中,静止编码器的输出是当前帧的面部关键点(landmarks),而表面编码器的输出是当前视频剪辑中的随机采样的帧。

随后根据这两个编码器的输出,优化解码器以重建当前帧。在获得了训练好的 VAE 后,就得到了所有训练数据的潜伏静止(即静止编码器的输出)。

接着,本文训练了一个集中模型来预测以语音和视频剪辑中的一个随机采样帧为条件的静止潜伏序列,这为生成过程提供了表面信息。

在推理过程中,给定目标假造人物的参照肖像图象,集中模型将图象和输出语音序列作为条件,生成符合语音内容的静止潜伏序列。然后,生成的静止潜伏序列和参照肖像图象经过 VAE 解码器合成语言视频输出。

在数据方面。该研讨从不同的来源构建数据集,他们收集的数据集包括 HighDefinition Talking Face Dataset (HDTF) 和 Casual Conversation datasets v1&v2 (CC v1&v2) 。除了这三个数据集之外,该研讨还收集了一个大规模的内部语言假造人物(internal talking avatar)数据集,其中包含 7K 小时的视频和 8K 语言者 ID。数据集统计的概述如表 1 所示。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

为了能够从数据中学习到所需的信息,本文还提出了几种自动过滤策略来确保训练数据的质量:

为了使嘴唇静止可见,头像的正面方向应朝向相机; 

为了保证稳定性,视频中的面部举动要流畅,不能出现快速晃动; 

为了过滤掉嘴唇举动和言语不一致的极端情况,应该删除头像戴口罩或保持沉默的帧。

本文在过滤后的数据上训练 VAE 和集中模型。从实验结果来看,本文得到了三个关键结论:

GAIA 能够进行零样本语言假造人物生成,在当然度、多样性、口型同步质量和视觉质量方面具有优越的性能。根据研讨者的主观评价,GAIA 显着超越了所有基线要领; 

训练模型的大小从 150M 到 2B 不等,结果表明,GAIA 具有可扩展性,因为较大的模型会产生更好的结果; 

GAIA 是一个通用且灵活的框架,可实现不同的应用,包括可控的语言假造人物生成和文本 – 指令假造人物生成。

GAIA 效果怎么样?

实验过程中,该研讨将 GAIA 与三个强大的基线进行比较,包括 FOMM、HeadGAN 和 Face-vid2vid。结果如表 2 所示:GAIA 中的 VAE 比以前的视频启动基线实现了持续的改进,这说明 GAIA 成功地分解了表面和静止表示。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

语音启动结果。用语音启动语言假造人物生成是通过从语音预测静止实现的。表 3 和图 2 提供了 GAIA 与 MakeItTalk、Audio2Head 和 SadTalker 要领的定量和定性比较。

可以看出,GAIA 在主观评价方面大幅超越了所有基线。更具体地说,如图 2 所示,即使参照图象是闭着眼睛或不寻常的头部姿态给出的,基线要领的生成往往高度依赖于参照图象,相比之下,GAIA 对各种参照图象具有鲁棒性,并生成具有更高当然度、口型高度同步、视觉质量更好以及静止多样性的结果。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

如表 3 所示,最佳 MSI 分数表明 GAIA 生成的视频具有出色的静止稳定性。Sync-D 得分为 8.528,接近真实视频的得分 (8.548),说明生成的视频具有出色的唇形同步性。该研讨获得了与基线相当的 FID 分数,这可能是受到了不同头部姿态的影响,因为该研讨发现未经集中训练的模型在表中实现了更好的 FID 分数,如表 6 所示。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

给TA打赏
共{{data.count}}人
人已打赏
应用

用GPT-4V和人类演示训练机器人:眼睛学会了,手也能跟上

2023-12-4 11:05:00

应用

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

2023-12-4 11:35:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索