盘点如何用AI做动画,还有各种东西等你取用

图象天生、视频天生、整合语音合成的人脸动画、天生三维的人物活动以及 LLM 驱动的东西…… 一切都在这篇文章中。天生式 AI 已经成为互联网的一个重要内容来源,现在你能看到 AI 天生的文本、代码、音频、图象以及视频和动画。今天我们要介绍的文章来自立陶宛博主和动画师 aulerius,其中按层级介绍和分类了动画领域应用的天生式 AI 手艺,包括简要介绍、示例、优缺点以及相关东西。他写道:「作为一位动画建造者,我希望一年前就有这样一份资源,那时候我只能在混乱的互联网上自行寻找可能性和不断出

图象天生、视频天生、整合语音合成的人脸动画、天生三维的人物活动以及 LLM 驱动的东西…… 一切都在这篇文章中。

天生式 AI 已经成为互联网的一个重要内容来源,现在你能看到 AI 天生的文本、代码、音频、图象以及视频和动画。今天我们要介绍的文章来自立陶宛博主和动画师 aulerius,其中按层级介绍和分类了动画领域应用的天生式 AI 手艺,包括简要介绍、示例、优缺点以及相关东西。他写道:「作为一位动画建造者,我希望一年前就有这样一份资源,那时候我只能在混乱的互联网上自行寻找可能性和不断出现的进展。」本文的目标读者是任何对这一领域感兴趣的人,尤其是不知如何应对 AI 领域新手艺发展的动画师和创意人士。另需说明,视频风格化虽然也是相关手艺,但本文基本不会涉及这方面。

图片

                               本文的文章结构。图象天生图象天生手艺是指应用 AI 模型天生图象的手艺,这些 AI 模型的训练应用了静态图象。将天生的图象用作素材将任意 AI 运用天生的静态图象用作 2D 剪贴画、数字解决、拼贴等传统工作过程中的素材,或者用作其它 AI 东西的资源,比如提供给图象转视频(image2video)东西来天生视频。除了作为图象和素材来源,这类手艺还需依赖剪切和图象编辑等一些常用技能。盘点如何用AI做动画,还有各种东西等你取用                              短片《Planets and Robots》中应用了数字剪贴画来将天生的 AI 图象动画化,其中的配音也是应用 LLM 基于脚本天生的。优点:现有动画师就很容易上手应用可用于天生背景图缺点:天生结果没有多少「新意」需要动画师协调解决素材和动画收费东西(任何天生图象模型或运用):Stable Diffusion(SD,运行在本地计算机上)或这些在线运用:CraiyonInvokeai (应用了 SD)Enfugue (应用了 SD)SkyBox AI—— 能天生适用于 VR 的 360 度场景图插件和附加组件:在 Blender 中应用的 ComfyUI 节点Krita 上的 Stable DiffusionKrita 上的 ComfyUI—— 界面简单易用,对艺术家友好此外,Hugging face space 上还有一些收费的演示:https://huggingface.co/spaces付费东西(任何天生图象模型或运用):MidJourneyRunwayDALL・E 2Adobe 的 FireFly注:动画建造应用的东西包括 After Effects、Moho、Blender…… 逐帧天生图象这类手艺是以一种相当程度上立足动画根源的精神来应用天生式扩散图象模型,其是以逐帧方式天生动作序列,就像是传统动画建造的绘制再拍摄过程。其中的一大关键是这些模型在天生每张图象时没有时间或活动的概念,而是通过某种机制或各种运用或扩展来帮助得到某种程度上的动画,从而实行所谓的「时间一致性(temporal consistency)」。这些手艺得到的动画往往会出现闪烁现象。尽管许多应用这些东西的用户会努力清理这些闪烁,但动画师却会把这视为一种艺术形式,称为 boiling。这方面最常用的是 Stable Diffusion 等开源模型以及基于它们构建的东西。用户可以应用公开的参数来配置它们,还可以将它们运行在本地计算机上。相较之下,MidJourney 东西的模型没有公开,而且主要是为图象天生设计的,因此无法用来天生逐帧动画。盘点如何用AI做动画,还有各种东西等你取用动画也可能应用 Stable WarpFusion 来建造,这其中涉及到图象转图象的工作过程,通过一些扭变(置换)将底层的视频输出变成动画。视频作者:Sagans。用逐帧图象来建造动画一般需要混合应用以下东西:一步到位的东西(文本转图象)有一些新手艺支持直接通过文本 prompt 和参数调配来天生动画:参数插值(变形)在每张天生的图象帧上逐渐进行参数插值,以得到过渡动画。这里的参数可能包括任何与模型相关的设定,比如文本 prompt 本身或底层的种子(隐空间游走)。

图片

                           prompt 编辑法,即通过逐渐改变权重来创建动画过渡。这里应用了 Depth ControlNet 来保持手部整体形状的一致性。图象到图象(I2I)反馈循环通过图象到图象手艺,将每张天生的图象帧作为输出来天生动画的下一帧。这样在其它参数和种子变化时也可以天生看起来相似的帧序列。这个过程一般由 Deforum 中的「去噪强度」或「强度调度」来控制。起始帧可以是已有的图片。这是大多数应用 Stable Diffusion 的动画实行的一个核心组件,而 Stable Diffusion 是下列许多运用依赖的手艺。这种手艺很难平衡,并且很大程度上取决于应用的采样器(噪声调度器)。

图片

                                应用一张起始图象,然后应用一个稍有不同的 prompt,使其逐帧变化成其它形态。2D 或 3D 变换(基于 I2I 循环)逐渐变换每一帧天生图象,之后再将其作为 I2I 循环的输出。2D 变换对应于简单的平移、旋转和缩放。3D 手艺则会想象一个在 3D 空间中移动的虚拟相机,这一般需要估计每帧天生图象的 3D 深度,然后根据想象中的相机活动来进行变形解决。

图片

                               想必你已经看过这种无限放大的动画。它的视觉效果如此之棒,是因为其应用了 SD 来持续构建新细节。 实验性、活动合成、混合等手艺活动合成的目标是「想象」后续天生帧之间的活动流,然后应用这个活动流来逐帧执行变形解决,从而基于 I2I 循环注入有机的活动。这一般需要依赖在视频的活动估计(光流)上训练的 AI 模型,只不过其关注的不是后续视频帧,而是后续天生帧(通过 I2I 循环),或是应用某种混合方法。其它手艺还包括图象修复和变形手艺搭配应用、采用多个解决步骤或甚至捕获模型训练过程的快照等先进手艺。举个例子,Deforum 有很多可供用户调控的地方。

图片

                               应用 SD-CN Animation 建造,其应用了一种在天生帧之间产生幻觉活动的独特方法。起始图象只是作为起点,没有其它用途。变换型手艺(图象到图象):此外还可以应用某个来源的输出来助力天生的帧和所得的动画结果:混合(风格化)—— 混合视频源或 / 和按条件解决(ControlNets)这类方法范围很广,做法是应用输出视频来混合和影响天生的序列。这些输出视频一般分为多个帧,作用一般是风格化现实视频。在现如今的风格化跳舞视频和表演热潮中,这类手艺常被用于实行动漫造型和性感体格。但你可以应用任何东西作为输出,比如你自己动画的粗略一帧或任何杂乱抽象的录像。在模仿 pixilation 这种定格动画手艺和替换动画手艺方面,这类手艺有广泛的可能性。在每一帧,输出帧要么可以直接与天生图象混合,然后再输出回每个 I2I 循环,要么可以采用更高级的设定附加条件的做法,比如 ControlNet。

图片

                          Deforum 搭配 ControlNet 条件化解决的混合模式,左图是原视频。遮掩和背景模糊是分开执行的,与这项手艺无关。光流变形(应用视频输出在 I2I 循环上执行)「光流」是指视频中估计的活动,可通过每一帧上的活动向量表示,其指示了屏幕空间中每个像素的活动情况。当估计出变形工作过程中的源视频的光流后,就可以根据它对天生的帧执行变形,使得天生的纹理在对象或相机移动时也能「粘黏」在对象上。

图片

Deforum 的混合模式支持这种手艺搭配各种设置应用。为了得到闪动更少的结果,也会增加 cadence,使得变形的效果更好。遮掩和背景模糊是分开执行的,与这项手艺无关。3D 衍变通过变形工作过程完成的条件解决也可能直接关联 3D 数据,这可以跳过一个可能造成模糊的环节,直接在视频帧上完成解决。举个例子,可以直接通过虚拟 3D 场景提供 openpose 或深度数据,而不是通过视频(或经过 CG 渲染的视频)估计这些数据。这允许采用最模块化和最可控的 3D 原生方法;尤其是组合了有助于时间一致性的方法时,效果更佳。这可能是现有手艺与用于 VFX 的 AI 手艺之间最有潜力的交叉领域,如下视频所示:https://youtu.be/lFE8yI4i0Yw?si=-a-GvsaIVPrdaQKm

图片

有一个广泛运用的东西也应用了该手艺,其可简化并自动化用 Blender 天生直接适用于 ControlNet 的角色图象的过程。在这个示例中,ControlNet 应用手部骨架来天生 openpose、深度和法线贴图图象,最终得到最右侧的 SD 结果。(openpose 最终被舍弃了,因为事实证明它不适用于只有手部的情况。)将所有这些手艺结合起来,似乎有无尽的参数可以调整动画的天生结果(就像模块化的音频建造)。它要么可以通过关键帧进行「调度」并应用 Parseq 这样的东西绘制图形,要么可以与音频和音乐关联,得到许多随音频变化的动画。只需如此,你就能应用 Stable Diffusion 帮你跳舞了。优点:全新且不断演变的美学风格,这是这种媒体形式特有的。在概念上与传统的动画手艺有共同点。最容易定制化、最实用且易于指导。模块化、分层的方法。缺点:往往会有闪动问题,有时候会显得很混乱。手艺方面要考虑的东西很多,难以平衡考虑,要想成为高手必须经历陡峭的学习曲线。如果没有性能卓越的本地硬件(英伟达 GPU),就会很不方便。收费东西:可在 A1111 webui 中应用的东西:用于参数插值动画(travel)的小脚本:步骤(https://github.com/vladmandic/sd-extension-steps-animation) 、prompt(https://github.com/Kahsolt/stable-diffusion-webui-prompt-travel )、种子(https://github.com/yownas/seed_travel)。Deforum—— 能够满足各种动画 SD 需求的最佳工房,整合了上面大多数手艺。Parseq—— 用于 Deforum 的常用视觉参数排序东西。Deforum timeline helper—— 另一款参数可视化和调度东西。Deforumation—— 用于实时控制 Deforum 参数的 GUI,支持反应性调整和控制。TemporalKit—— 采用了 EBsynth 的一些原则,可与 SD 搭配应用实行一致的视频风格化。SD-CN Animation—— 这多少还是个实验性东西,支持一些混合风格化工作过程,也支持有趣的光流活动合成(这会导致活动抖动)。TemporalNet——ControlNet 模型可以用在 Deforum 等其它工作过程中,目标是提升时间一致性。Python 笔记本(需要在 Google Colab 或 Jupyter 上运行)。Stable WarpFusion —— 实验性的代码东西包,目标是执行高级的视频风格化和动画。与 Deforum 有很多一样的功能。插件和附加组件:用于 Blender 的 Dream TexturesStabiliy AI 的 Blender 插件看起来像用于 Blender 的 Openpose 的角色骨架 —— 可在 Blender 之外应用 ControlNet用于虚幻引擎 5 的 Unreal Diffusion用于 After Effects 的 After-Diffusion(目前还在开发中)用于 TouchDesigner 的 A1111 或 ComfyUI API—— 如果你知道如何操作,那么这可用于执行动画等各种任务付费东西:(一般也依赖于 SD,但运行在「云」上,用起来也更简单):Stability AI 的动画 APIKaiber 的 Flipbook 模式 —— 按照描述,基于 Deforum 代码插件和附加组件:用于 After Effects 的 Diffusae市面上还有许多运用和东西,但如果是付费东西,多半是基于开源的 Deforum 代码。注:最好的情况是你有足够的优良硬件(即 GPU)在本地运行这些东西。如果没有,你也可以尝试运行在远程计算机上的、功能有限的收费服务,比如 Google Colab。不过,Google Colab 上的笔记本也可以运行在本地硬件上。视频天生手艺这类手艺应用在活动视频上训练的视频天生 AI 模型,另外可以在神经网络层面上应用时间压缩来增强。目前,这些模型有一个共同特征是它们仅能解决时间很短的视频片段(几秒),并受到 GPU 上可用视频内存的限制。但是,这方面的发展速度很快,并且可以用一些方法将多个天生结果拼接成更长的视频。视频天生模型这是指应用从头构建和训练的模型来解决视频。现今的这类模型得到的结果往往晃动很大、有明显的 AI 痕迹、显得古怪。就像是很久之前天生图象的 AI 模型一样。这个领域的发展落后一些,但进展很快,我个人认为在静态图象天生上取得的进展并不会同等比例地在视频天生方面重现,因为视频天生的难度要大得多。盘点如何用AI做动画,还有各种东西等你取用                                Paul Trillo 应用 Runway 的 Gen-2,仅通过图象和文本 prompt 让 AI 天生的视频。我认为在这方面,动画和传统电影之间的界限很模糊。只要其结果还与现实有差异,那么我们就可以在一定程度上把它们看作是动画和视频艺术的一种怪异新流派。就目前而言,我认为大家还是别想着用这类手艺做真实风格的电影了,只把它视为一种新形式的实验媒体即可。玩得开心哦!一步到位的东西(文本转视频):应用文本 prompt 天生全新的视频片段理论上讲,这类手艺有无限可能性 —— 只要你能将其描述出来(就像静态图象天生那样),就可能将其用于直播表演或天生任何超现实和风格化的内容。但从实践角度看,为了训练视频模型,收集多样化和足够大的数据集要难得多,因此仅靠文本来设定天生条件,很难用这些模型实行利基(niche)的美学风格。应用这种方法,只能很宽松地控制创意工作。当与图象或视频条件化解决(即变形工作过程)组合应用时,这种手艺就会强大得多。

图片

                                 Kyle Wiggers 做的动画天生测试,应用了 Runway 的 Gen-2变形:应用文本 prompt,再根据已有的图象或视频进行进一步的条件化解决图象到视频天生很多视频天生东西都能让你以图象为条件天生视频。其做法可以是完全从你指定的图象开始天生,也可以将指定图象用作语义信息、构图和颜色的粗略参考。人们经常会应用传统的静态图象模型天生起始图象,然后再将其输出视频模型。盘点如何用AI做动画,还有各种东西等你取用                                这里天生的每一段视频都是应用一张唱片封面作为起始图象,作者:Stable Reel视频到视频天生类似于图象天生模型中的图象到图象过程,也有可能将输出视频的信息嵌入到视频模型中,再加上文本 prompt,让其天生(去噪)输出。我并不理解这其中的具体过程,但似乎这个过程不仅能在逐帧层面上匹配输出视频片段(如同应用 Stable Diffusion 进行风格化解决),而且能在整体和活动层面上匹配。和图象到图象天生过程一样,这个过程受去噪强度控制。

图片

如果运气好并且有合适的 prompt,你也可以输出视频来「启发」模型重新想象源视频中的活动,并以完全不同的形式将其呈现出来。应用 webui txt2vid 中的 Zeroscope 完成,应用了 vid2vid 模式。优点:这类手艺具有最大的可能性,并且会随时间不断改进。在专业动画知识方面没有进入门槛。相比于逐帧的手艺,这类手艺的结果往往更加平滑,一般也更为一致。对于「变形」工作过程而言,这可能是比逐帧方法更简单直接的方法。缺点:得到的结果一般显得离奇怪异,一看就是 AI 天生的,而且这种情况比静态图象严重多了。在涉及人的仿真实影像方面尤其明显。计算成本高。相比于图象 AI,更难以在本地硬件上运行。存在视频时长短和上下文短等限制(目前而言)。收费东西:Stable Video (SVD)—— 来自 StabilityAI 的开源视频扩散模型。目前很多托管式运用和东西都在快速部署实行该模型。SVD ComfyUI 实行SVD 时间 ControlNetMotionCtrl—— 经过增强,允许在各种视频模型中控制目标活动和摄像机轨迹。Emu Video——Meta 的视频天生模型的预览演示。A1111 webui 的文本转视频插件,可搭配以下模型应用(如果你的硬件足够):VideoCrafterZeroscope插件和附加组件:用于 Blender 的 Pallaidium—— 一个多功能东西包,包含跨图象、视频甚至音频领域的天生功能。此外,你还能在 Hugging face space 上找到一些收费演示。付费东西(有试用版):Runway 的 Gen2Kaiber 的 Motion 模式Pika labs(受限 beta 版)注:最好的情况是你有足够的优良硬件(即 GPU)在本地运行这些东西。如果没有,你也可以尝试运行在远程计算机上的、功能有限的收费服务,比如 Google Colab,不过大多数收费或试用服务的功能都有限。 应用活动压缩增强的图象模型随着 AnimateDiff 的日益流行,出现了一个应用视频或「活动」压缩来增强已有图象扩散模型的新兴领域。相比于应用逐帧手艺天生的结果,其天生的结果更相近于原生视频模型(如上面介绍的)。这种手艺的优势是你还可以应用为 Stable Diffusion 等图象模型构建的东西,如社区创建的任何检查点模型、LoRA、ControlNet 以及其它条件化解决东西。你甚至有可能通过 ControlNet 提供视频条件化解决,就像是应用逐帧手艺一样。社区仍在积极实验这一手艺。可用的手艺有的来自静态图象模型(比如 prompt 遍历),也有的来自视频原生模型。如下视频为应用 ComfyUI 中 AnimateDiff 完成的动画,过程应用了多个不同的 prompt 主题。视频链接:https://www.instagram.com/p/Cx-iecPusza/?utm_source=ig_embed&utm_campaign=embed_video_watch_again这种手艺中的活动本身一般非常原始,只是在视频片段中松散地插入对象和流,这往往会将事物变形成其它模样。不过,这种手艺有更好的时间一致性,而且仍处于起步阶段。当场景很抽象,没有具体物体时,这种方法能得到最好的结果。优点:可以受益于现有图象扩散模型的进展。可以通过去噪或应用 ControlNet 用视频来进行条件化解决。解决抽象、流活动效果很好。缺点:难以为人物或不常见的物体产生复杂、连贯一致的活动,反而常出现变形问题。和视频原生模型一样,计算成本高。相比于图象 AI,更难以在本地硬件上运行。受限于较短的上下文窗口(目前而言),但也有一些人正在实验解决方案。收费东西:目前,AnimateDiff (SD v1.5) 的实行一马当先:用于 AnimateDiff 的 A1111 webui 插件ComfyUI 中 AnimateDiff 实行VisionCrafter—— 一个用于 AnimateDiff 实行等项目的 GUI 东西用于 SD XL:Hotshot-XL多功能实行:Enfugue付费东西:目前好像没有整合语音合成的人脸动画大家都知道,这是一个流行迷因背后的手艺。你可能看过一个相对静止的人物(相机可能在移动)只有脸动着说话,这多半是用到了 AI 人脸动画化和语音合成东西的组合方法。这其中组合了多个手艺步骤和组件。其源图象多半是应用图象天生 AI 建造的,但也可以应用任何带有人脸的图象。语音是根据文本天生的,并根据所选任务的音色进行了条件化解决。然后再应用另一个东西(或东西包中的某个模型)合成与音频唇形同步的人脸动画 —— 一般只天生图象中脸部和头部区域的活动。应用预训练的数字化身也能让身体动起来。盘点如何用AI做动画,还有各种东西等你取用                     在发布热门的 Belenciaga 视频之前,作者 demonflyingfox 就已经发布了一篇分步教程:https://youtu.be/rDp_8lPUbWY?si=BWNKe7-KTJpCrNjF优点:可用于轻松建造迷因动图。 …… 呃,有喜剧效果?缺点:一般看起来不自然。我还想不出这能有什么实际用途。过于依赖付费运用提供的闭源人脸动画东西。即使你应用自己的录像来训练数字化身,得到的结果也过于呆板,动态效果很差。收费东西:ElevenLabs—— 有应用次数限制,但次数似乎每个月都会刷新。A1111 WebUI 的 Wav2Lip 插件 —— 用于天生唇形同步动画的东西。看起来仅限于嘴部区域。你也可以在网上直接搜索文本转语音服务,不可胜计,但效果多半赶不上 ElevenLabs。至于全脸动画化,就我所知,目前仅有一些付费运用提供了试用版,而且应用很受限。付费东西(有试用版):人脸动画建造(一般会搭配语音合成):D-IDHeygenSynesthesia搜索「D-ID 替代品」就能找到很多。天生三维的人物活动这是指为 3D 人物合成活动的手艺。这类手艺可以运用于 3D 动画电影、视频游戏或其它 3D 交互运用。正如图象和视频领域一样,新兴的 AI 东西让人可通过文本来描述人物的活动。此外,一些东西还能根据很少的关键姿势来构建活动或者在交互环境中实时动态地天生动画。盘点如何用AI做动画,还有各种东西等你取用                              Nikita 的充满天才巧思的元人工智能电影预告片,其中将 AI 的活动学习过程展现成了一部滑稽幽默的有趣短片。由于本文的关注重点是天生东西,因此没有包含自动化某些非创意任务的 AI 运用,比如 AI 驱动的活动跟踪、合成、打码等,例子包括 Move.ai 和 Wonder Dynamics。优点:能整合进现有的 3D 动画建造过程中,可减少重复性任务,有望成为动画老手的好帮手。能很好地解决物理效果和重量。在未来的视频游戏中实行动态的人物动画?缺点:似乎受限于人类形态的双足式人物。还需要其它东西辅助。只是 3D 动画建造过程的一个组件。你需要知道接下来该做什么。训练过程一般基于人类活动数据,这意味着到目前为止这些东西只能实行基于真实物理效果的活动,无法实行风格化或卡通中的活动机制。收费东西(或可收费应用部分功能的服务):MootionOmni AnimationCascadeur—— 动画建造助理,可以根据最小化的输出创建平滑的、基于物理机制的动画和姿势。可控性高,可能会成为未来一个主力东西。ComfyUI 中的 MDM、MotionDiffuse 和 ReMoDiffuse 实行。付费东西:收费东西的付费套餐会提供更多功能,应用限制也更少。LLM 驱动的东西从理论上讲,由于大型语言模型(LLM)在编程任务上表现出色,尤其是经过微调之后,那么我们就可以在建造动画的软件中让其编程和编写脚本。这就意味着按照常规工作过程建造动画时,能让 AI 从头到尾一直辅助。极端情况下,AI 能帮你完成一切工作,同时还能为后端过程分配适当的任务。在实践中,你也能尝试这么做了!举个例子,Blender 配备了非常广泛的 Python API,允许通过代码操作该东西,因此现在已经有几个类似 ChatGPT 的辅助东西可用了。这个趋势不可避免。只要有代码,LLM 多半就会有用武之地。优点:潜力 —— 最终突破创意工作者面临的任何手艺障碍。可用作创意软件的助理,消除繁琐重复的任务,帮你深度挖掘文档内容。缺点:如果 AI 能帮你创造一切,那么成为创意工作者还有什么意义?目前,LLM 只能运行在强大的远程计算机上,一般是按 token 数收费或采用订阅制。收费东西:Blender Chat Companion——(类似于 Blender Copilot)Blender 中的一个 ChatGPT 实行,专用于解决适当的任务。应用了 ChatGPT API,这需要付费。付费东西:Genmo—— 承诺会实行「创意通用智能」,采用了多步过程并且全都可以通过聊天界面控制。Blender Copilot——(类似于 Blender Chat Companion)Blender 中的一个 ChatGPT 实行,专用于解决适当的任务。应用了 ChatGPT API,这需要付费。注:还有一个即将推出的 ChatUSD—— 这是一个可以操作和管理 USD 的聊天机器人,这是由皮克斯最初创建的标准,用以统一和简化动画电影建造中的 3D 数据交换和并行化。目前没有更多相关消息了,但英伟达似乎很欢迎这项标准并在推动其成为各种 3D 内容的标准,而不只是电影。终于完结了!内容很多,但我多半还是遗漏了一些东西。你觉得还有什么内容有待补充或还有什么相关东西值得提及,请在评论区与我们分享。原文链接:https://diffusionpilot.blogspot.com/2023/09/overview-ai-animation.html#id_generative_video_models

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/pan-dian-ru-he-yong-ai-zuo-dong-hua-hai-you-ge-zhong-dong/

(0)
上一篇 2024年 2月 16日 下午5:06
下一篇 2024年 2月 27日 下午3:08

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注