视频天生无需GAN、VAE,谷歌用聚集模型联合训练视频、图象,实现新SOTA

聚集模型正在不断的「攻城略地」。

聚集模型并不是一个崭新的概念,早在2015年就已经被提出。其核心应用领域包括音频建模、语音合成、时光序列预测、降噪等。

那么它在视频领域表现如何?先前关于视频天生的工作通常采用诸如GAN、VAE、鉴于流的模型。

在视频天生领域,研讨的一个重要里程碑是天生时光相干的高保真视频。来自谷歌的研讨者通过提出一个视频天生聚集模型来实现这一里程碑,显示出非常有希望的初步结果。本文所提出的模型是标准图象聚集架构的自然扩张,它可以从图象和视频数据中从事联合训练,研讨发现这可以减少小批量梯度的方差并加快优化速度。

为了天生更长和更高分辨率的视频,该研讨引入了一种新的用于空间和时光视频扩张的前提采样技术,该技术比以前提出的办法表现更好。

图片

论文地址:https://arxiv.org/pdf/2204.03458.pdf

论文主页:https://video-diffusion.github.io/

研讨揭示了文本前提视频天生的结果和无前提视频天生基准的最新结果。例如天生五彩斑斓的烟花:

图片

其他天生结果揭示:

图片

这项研讨有哪些亮点呢?首先谷歌揭示了利用聚集模型天生视频的首个结果,包括无前提和有前提设置。先前关于视频天生的工作通常采用其他类型的天生模型,如 GAN、VAE、鉴于流的模型和自返回模型。

其次该研讨表明,可以通过高斯聚集模型的标准公式来天生高质量的视频,除了直接的架构更改以适应深度学习加速器的内存限制外,几乎不需要其他修改。该研讨训练天生固定数量的视频帧块的模型,并且为了天生比该帧数更长的视频,他们还揭示了如何重新调整训练模型的用途,使其充当对帧从事块自返回的模型。

办法介绍

图象聚集模型中图片的标准架构是U-Net,它是一种被构造为空间下采样通道的神经网络架构,空间上采样通道紧随其后,其中残差连接到下采样通道激活。这种神经网络由2D卷积残差块的层构建而成,并且每一个这种卷积块的后面是空间注意力块。

研讨者建议将这一图象聚集模型架构扩张至视频数据,给定了固定数量帧的块,并且利用了在空间和时光上分解的特定类型的 3D U-Net。

首先,研讨者通过将每一个 2D卷积改成space-only 3D卷积对图象模型架构从事修改,比如将每一个3×3卷积改成了1x3x3卷积,即第一个轴(axis)索引视频帧,第二和第三个索引空间高度和宽度。每一个空间注意力块中的注意力仍然为空间上的注意力,也即第一个轴被视为批处理轴(batch axis)。

其次,在每一个空间注意力块之后,研讨者插入一个时光注意力块,它在第一个轴上执行注意力并将空间轴视为批处理轴。他们在每一个时光注意力块中利用相对位置嵌入,如此网络不需要绝对视频时光概念即可区分帧的顺序。3D U-Net 的模型架构可视图如下所示。

图片

我们都知道,得益于分解时空注意力的计算效率,在视频transformers中利用它是一个很好的选择。研讨者利用的分解时空架构是自身视频天生设置独有的,它的一大优势是可以直接 mask 模型以在独立图象而非视频上运行,其中只需删除每一个时光注意力块内部的注意力操作并修复注意力矩阵以在每一个视频时光步精确匹配每一个键和问询向量。

这样做的好处是允许联合训练视频和图象天生的模型。研讨者在实验中发现,这种联合训练对样本质量非常重要。

新颖的前提天生梯度办法

研讨者的主要创新是设计了一种新的、用于无前提聚集模型的前提天生办法,称之为梯度办法,它修改了模型的采样过程以利用鉴于梯度的优化来改善去噪数据上的前提损失。他们发现,梯度办法比现有办法更能确保天生样本与前提信息的一致性。

研讨者利用该梯度办法将自己的模型自返回地扩张至更多的时光步和更高的分辨率。

下图左为利用梯度办法的视频帧,图右为利用自返回扩张基线替代(replacement)办法的帧。可以看到,利用梯度办法采用的视频比基线办法具有更好的时光相干性。

图片

实验结果

研讨者对无前提、文本-前提视频天生模型从事了评估。文本-前提视频天生是在一个包含 1000 万个字幕视频数据集上从事训练,视频空间分辨率为 64×64 ;对于无前提视频天生,该研讨在现有基准 [36] 上训练和评估模型。

无前提视频建模该研讨利用 Soomro 等人[36]提出的基准对无前提视频天生模型从事评估。表 1 揭示了该研讨所提模型天生的视频的感知质量得分,并与文献中的办法从事了比较,发现本文办法大大提高了SOTA。

图片

视频、图象模型联合训练:表 2 报告了针对文本-前提的 16x64x64 视频的实验结果。

图片

无分类器辅导的效果:表3 表明无分类器辅导 [13] 在文本-视频天生方面的有效性。正如预期的那样,随着辅导权重的增加,类 Inception Score 的目标有明显的改善,而类 FID 的目标随着引导权重的增加先改善然后下降。

表 3 报告的结果验证了无分类器辅导 [13] 在文本-视频天生方面的有效性。正如预期的那样,随着引导权重的增加,类 Inception Score (IS)的目标有明显的改善,而类 FID 的目标随着引导权重的增加先改善然后下降。这一现象在文本-图象天生方面也有类似的发现[23]。

图片

图 3 显示了无分类器辅导 [13] 对文本-前提视频模型的影响。与在文本前提图象天生 [23] 和类前提图象天生 [13, 11] 上利用无分类器辅导的其他工作中观察到的类似,添加辅导提高了每一个图象的样本保真度。

图片

针对较长序列的自返回视频扩张:3.1节提出了鉴于聚集模型的前提采样梯度法,这是对[35]中替换办法的改善。表4揭示了利用这两种技术天生较长视频的结果,由结果可得本文提出的办法在感知质量分数方面确实优于替换办法。

图片

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/shi-pin-tian-sheng-wu-xu-gan-vae-gu-ge-yong-ju-ji-mo-xing/

(0)
上一篇 2022年 4月 7日 上午10:49
下一篇 2022年 4月 10日 下午12:40

相关推荐

  • 全球首个联邦进修工业级开源框架FATE更新!五大模块迎来巨幅优化

    FATE(Federated AI Technology Enabler)是微众银行AI团队研发的全球首个联邦进修工业级开源框架,旨在提供安全的算计框架来支撑联邦 AI 生态。FATE 实现了基于同态加密和多方算计(MPC)的安全算计协议,它支撑联邦进修架构和多种机器进修算法的联邦进修实现,包括逻辑回归、基于树的算法、深度进修和迁移进修等等。3月31日,FATE推出 v1.6版本更新。在1.6版本中,优化了功能效率及稳定性,在使用体验方面,根据社区的反馈也有多方面的优化,将带来更流畅的使用体验。此外,新版本对其他F

    2021年 3月 31日
  • 把轮子装在膝盖上,「机器羊」能走能滑、还载起了人和货

    四足机器人不一定是机器狗,也可能是「机器羊」。

    2022年 3月 29日
  • 揭秘Hologres如何支持超高QPS在线办事(点查)场景

    Hologres(中文名交互式分解)是阿里云自研的一站式及时数仓,这个云原生系统融合了及时办事和分解大数据的场景,全面兼容PostgreSQL协定并与大数据生态无缝打通,能用同一套数据架构同时支持及时写入及时盘问以及及时离线联邦分解。它的出现简化了业务的架构,为业务提供及时决策的能力,让大数据发挥出更大的商业价值。本期将为大家揭秘Hologres如何支持超高QPS点查。传统的 OLAP 系统在业务中往往扮演着比较静态的角色,以通过分解海量的数据得到业务的洞察(比如说预计算好的视图、模型等),从这些海量数据分解到的结

    2021年 7月 29日
  • JSON之父:10天赶工出的JavaScript,最好的归宿就是让它退役

    JavaScript 这一现今非常流行的编程言语,竟然已经到了要谈论「退役」的地步了吗?

    2022年 8月 9日
  • MaxCompute履行引擎核心技术DAG揭秘

    作为业界少有的EB级别数据分布式平台,MaxCompute系统每天支撑上千万个分布式功课的运转。在这个量级的功课数目上,毫无疑问平台需要支撑的功课特点也多种多样:既有在”阿里体量”的大数据生态中独有的包含数十万计较节点的超大型功课,也有中小规模的分布式功课。同时不同用户对于不同规模/特点的功课,在运转时间,资材使用效率,数据吞吐率等方面,也有着不同的期待。Fig.1 MaxCompute线上数据分析基于功课的不同规模,当前MaxCompute平台提供了两种不同的运转形式,下表对于这两种形式做了总结对比:Fig.2

    2021年 8月 25日
  • 有人总结了70多个Python精选项目:再也不用去GitHub、Reddit大海捞针了

    进修一门编程语言比较好的方式是听人讲课吗?还是自己钻研书本?都算是。但阅读项目和亲手实现项目绝对是进步最快的方式。

    2021年 6月 12日
  • 最高奖金50万,腾讯云开发技能峰会·公益编程挑战赛报名开启

    技能正给公益带来更多可能。

    2022年 3月 6日
  • 支援6kW外放电,最快6.9s破百!吉利首款纯电皮卡起售价17.88万元

    昨日(11月9日),吉利旗下雷达新能源汽车发布首款产品雷达RD6,共推出启航版、创客版、悦享版、悦野版4款车型,售价为17.88万-26.88万元。雷达官方表示,目前购车的用户将会至本月至明年一季度内提车。现场,雷达还发布了其打造的国内首个原生纯电皮卡平台M.A.P。作为搭载该平台的首款车型,雷达RD6的百公里加快可达6.9s,最长续航为632km,并具有一系列智能化能力,配备智能座舱和12项L2+级智能驾驭帮助功用。此外,雷达还透露了他们后续车型的研发规划:未来他们还将推出中型纯电皮卡、中大型新能源皮卡、全尺寸纯

    2022年 11月 10日
  • 来一场冬日技巧狂欢!WAVE SUMMIT+2020深度进修开发者峰会报名启动

    说到 798,大家都不陌生。就在下个周日, 12 月 20 日,在北京 798 艺术园区 751 罐,将要举行一场「别开生面」的 AI 开发者活动。

    2020年 12月 11日
  • 「对华夏半导体实施卡脖子战略」:美国通过756页AI战略陈诉

    由众多硅谷科技巨头 CEO、首席科学家们组成的 NSCAI 委员会,倡议通过卡住半导体出口的方式防止华夏在现在新技能发展中占据主导地位。

    2021年 3月 2日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注