39亿参数模型公开可用,采样速度7倍提升,残差量化天生图片入选CVPR’22

基于残差量化的自回归图象天生,官方已将代码公开。

向量量化(Vector quantization,VQ)已经成为自回归(AR)模型天生高分辨率图象的一种基本技术,具体来说,该技术将图象特点图通过 VQ 量化后,再进行光栅扫描等排序,之后将图象表示为失散编码序列。量化后,训练的 AR 模型对序列中的编码进行序列预计。也就是说,AR 模型可以天生高分辨率的图象,而无需预计图象中的全部像素。我们假设减少编码的序列长度对于图象的 AR 建模很重要。短编码序列可以显着降低 AR 模型的计算成本,因为 AR 通常利用先前位置的编码来预计下一个编码。然而,以前的研究由于图象的序列长度问题在速率 – 失真(rate-distortion)不能很好的权衡。也就是说,VQ-VAE 需要呈指数增长的编码簿 (Codebook)巨细来降低量化特点图的分辨率,同时保持重建图象的质量。然而,巨大的编码簿会导致模型参数增加和编码簿崩溃,使得 VQ-VAE 的训练不稳定。来自 Kakao Brain 、韩国浦项科技大学的研究者提出了一种残差量化 VAE (RQ-VAE)方法,它利用残差量化 (RQ) 来准确逼近特点图并降低其空间分辨率。RQ 没有增加编码簿巨细,而是利用固定巨细的编码簿以从粗到细的方式递归量化特点图。在 RQ 的 D 次迭代之后,特点图表示为 D 个失散编码的重叠图。由于 RQ 可以组成与编码簿巨细一样多的向量,因此 RQ-VAE 可以准确地逼近特点图,同时保留编码图象的信息,而无需庞大的编码簿。由于准确的近似,RQ-VAE 可以比以前的研究 [14,37,45] 进一步降低量化特点图的空间分辨率。例如, RQ-VAE 可以利用 8×8 分辨率的特点图对 256×256 图象进行 AR 建模。该论文已被 CVPR'22 接收。图片论文地址:https://arxiv.org/pdf/2203.01941.pdf此外,该研究还提出了 RQ-Transformer 来预计 RQ-VAE 提取的编码。对于 RQ-Transformer 的输入,该研究首先将 RQ-VAE 中的量化特点映射转换为特点向量序列;然后,RQ-Transformer 预计下一个 D 编码,以估计下一个位置的特点向量。由于 RQ-VAE 降低了特点图的分辨率,RQ-Transformer 可以显着降低计算成本并轻松学习输入的远程交互。该研究还为 RQ-Transformer 提出了两种训练技术,软标签(soft labeling)和用于 RQ-VAE 编码的随机采样。通过解决 AR 模型训练中的曝光偏差(exposure bias)进一步提高了 RQ-Transformer 的性能。值得一提的是,该研究近日发布了在 30M 文本图象对上训练的 3.9B 参数的 RQ-Transformer 。据了解,这是公共可用模型中最大的文本到图象 (T2I) 模型。不过这一结果没有出现在该论文中。具体内容可参考 GitHub。图片代码地址:https://github.com/kakaobrain/rq-vae-transformer 以下图所示,该模型可以天生高质量的图象。图片论文中天生图象的例子3.9B 参数的 RQ-Transformer 天生结果,画框里带着眼镜的猫:图片天生沙漠上的埃菲尔铁塔:图片方法概述研究者提出了用于图象 AR 建模的 RQ-VAE 和 RQ-Transformer 两阶段框架,以下图 2 所示。RQ-VAE 利用编码簿将图象表示为 D 个失散码的重叠图。然后,利用 RQ-Transformer 自回归预计下一个空间位置的下一个 D 码。他们还解释了利用 RQ-Transformer 解决 AR 模型训练中的曝光偏差问题。图片 阶段 1:残差量化 VAE研究者首先介绍 VQ 和 VQVAE 的表达方式,然后提出了 RQ-VAE,它可以在不增加编码簿巨细的情况下准确地逼近特点图。他们解释了如何将图象表示为失散码的重叠图。VQ 和 VQ-VAE 的表达。令编码簿C为一个有限集图片,它包含了成对的代码k和代码嵌入图片,其中K是编码簿巨细,n_z是代码嵌入的维数。考虑到一个向量 z ϵ R^nz,图片表示 z 的 VQ,这个代码的嵌入离 z 最近,以下公式(1)所示。图片在将图象编码为失散码图后,VQ-VAE 从编码码图重建原始图象。对于残差量化,研究者没有增加编码簿巨细,而是采用残差量化(RQ)来失散化向量 z。给定一个量化深度 D,RQ 将 z 表示为一个有序的 D 码,以下公式(3)所示。图片RQ-VAE。在上图 2 中,研究者提出 RQ-VAE 来准确量化图象的特点图。RQ-VAE 也是由 VQ-VAE 的编解码器架构组成,不过 VQ 模块被上面的 RQ 模块所取代。具体而言,深度为 D 的 RQ-VAE 将特点图 Z 表示为代码 M ϵ [K]^H×W×D 的重叠图,并提取了图片,成为 d ϵ [D]的深度为 D 的量化特点图,得到以下公式(5)。图片RQ-VAE 使 AR 模型以低计算成本有效地天生高分辨率图象。对于固定的下采样因子 f,RQ-VAE 可以产生比 VQ-VAE 更逼真的重建结果,这是因为 RQ-VAE 利用给定的编码簿巨细准确地逼近特点图。阶段 2:RQ-Transformer研究者展示了 RQ-Transformer 如何自回归地预计 RQ-VAE 的代码堆栈。在对 RQVAE 提取的代码的进行 AR 建模之后,他们介绍 RQ-Transformer 如何有效地学习失散代码的重叠图。此外,研究者还解释了 RQ-Transformer 的训练技术,以防止 AR 模型训练中出现曝光偏差。深度为 D 的代码的 AR 建模。在 RQ-VAE 提取代码映射 M ϵ ^[K] H×W×D 后,光栅扫描顺序(raster scan order)将 M 的空间索引重新排列为代码 S ϵ [ K]^T ×D 的二维数组,其中 T = HW。也就是说,S_t 是 S 的第 t 行,并包含了 D 个代码,以下公式(8)所示。图片如上图 2 所示,RQ-Transformer 由空间 transformer 和深度 transformer 组成。空间 transformer 是带掩码自注意力块的重叠,用于提取一个总结先前位置信息的上下文向量。给定上下文向量 h_t,深度 transformer 自回归预计位置 t 处的 D 个代码 (S_t1,····,S_tD)。软标签和随机抽样。研究者提议对来自 RQ-VAE 的代码进行软标签和随机采样,以解决暴露偏差。实验结果

无条件图象天生该研究在 LSUN-{cat, bedroom, church}和 FFHQ 数据集上评估了无条件图象天生的质量。表 1 显示,RQ-Transformer 模型在无条件天生图象方面优于其他 AR 模型。对于小规模数据集,如 LSUN-church 和 FFHQ,RQ-Transformer 小幅度优于 DCT 和 VQ-GAN。对于更大规模的数据集,如 LSUN-{cat, bedroom},RQ-Transformer 明显优于其他 AR 模型和基于扩散的模型。图片该研究推测性能的提高来自于 RQ-VAE 较短的序列长度,因为 SQ-Transformer 可以很容易地在较短的序列长度内学习编码间的长程交互。图 3 前两行展示了 RQ-Transformer 可以无条件天生高质量图象。图片有条件图象天生该研究分别利用 ImageNet 和 CC-3M 进行类和文本条件的图象天生。如表 2 所示,RQ-Transformer 在 ImageNet 上的性能明显优于以前的模型。RQ-Transformer(480M 参数)与以往 AR 模型具有竞争力,包括 VQ-VAE2, DCT,和 VQ-GAN,虽然 RQ-Transformer 比 VQ-GAN 少 3 倍的参数。此外,具有 821M 参数的 RQ-Transformer 在没有拒绝采样的情况下优于以往的 AR 模型。具有 1.4B 参数的 RQ-Transformer 在没有拒绝采样的情况下达到 11.56 的 FID 分数。当将 RQ-VAE 的训练 epoch 从 10 增加到 50 时,1.4B 参数的 RQ-Transformer 进一步提高了性能,达到了 8.71 FID 分数 。此外,当研究者进一步将参数数量增加到 3.8B 时,RQ-Transformer 在没有拒绝采样的情况下达到了 7.55 的 FID 分数,并且可以与 BigGAN 竞争。图片RQ-Transformer 还可以根据 CC-3M 的各种文本条件天生高质量图象。RQ-Transformer 在参数数量相似的情况下明显高于 VQ-GAN 的性能。图 3 显示在 CC-3M 上训练的 RQ-Transformer 可以利用各种文本条件天生高质量的图象。 RQ-Transformer 的计算效率图 4 评估了 RQ-Transformer 的采样速度,并与 VQ-GAN 进行了比较,两种模型参数均为 1.4B。VQ-GAN 和 RQ-Transformer 的输入分别设置为 16×16×1 和 8×8×4。每个模型利用单块 NVIDIA A100 GPU 天生 5000 个样品,批量巨细分别为 100、200 和 500。对于 100 和 200 的批量巨细,与 VQ-GAN 相比,RQ-Transformer 显示出 4.1 倍和 5.6 倍的加速。此外,由于 RQ-VAE 的短序列长度节省了内存,RQ-Transformer 可以将批量巨细增加到 500,而 VQ-GAN 是不允许的。因此,RQ-Transformer 可以进一步加快采样速度,每张图象为 0.02 秒,比批量巨细为 200 的 VQ-GAN 快 7.3 倍。因此,RQ-Transformer 比以前的 AR 模型在计算上更高效,同时实现高分辨率图象天生基准的最新结果。图片

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/39-yi-can-shu-mo-xing-gong-kai-ke-yong-cai-yang-su-du-7-bei/

(0)
上一篇 2022年 3月 23日 上午7:39
下一篇 2022年 3月 27日 下午12:46

相关推荐

  • 阿里开源 反对10万亿模型的自研分布式训练框架EPL(Easy Parallel Library)

    最近阿里云机器学习PAI平台和达摩院智能估计实验室一起发布“低碳版”巨模型M6-10T,模型参数已经从万亿跃迁到10万亿,规模远超业界此前发布的万亿级模型,成为当前全球最大的AI预训练模型。

    2022年 3月 30日
  • 「小破站」真顶流,CMU说话手艺研究所登陆B站:这是学术圈的新时尚?

    小破站真是出息了。当年发迹于二次元的「小破站」,俨然时代顶流了。继加拿大滑铁卢大学老师在 B 站开设《差分隐私》课程之后,现在又有国外机构来小破站开课了!😏1 月 20 日,一个名为「LTIatCMU」(卡耐基梅隆大学说话手艺研究所)的账号,悄悄在 B 站上传了 9 个视频。CMU 副老师 Graham Neubig 发推表示,这些讲座集结了说话手艺研究所(LTI)成员与客座讲师,在 YouTube 和 B 站均有资源。「我们的中国朋友也可以观看 bilibili:https://space.bilibili.c

    2021年 2月 4日
  • 光彩联手千寻位子、高德,V40实行车道级导航

    2021年1月22日,光彩发布V40手机,搭载千寻位子时空智能办事,让智能手机这样的小型设备的卫星定位精度带来突破性的变化,定位精度达到亚米级(小于1米),用户通过高德舆图在手机上就能实行车道级导航。借助千寻位子建设的环球最大规模卫星地基增强站网,光彩手机可以7×24小时在全国范围内接收卫星定位高精度修正的时空智能办事,实行高精度定位。该办事可靠性超过99.9%。千寻位子是环球领先的时空智能基础设施公司,成立于2015年8月。公司鉴于北斗卫星系统(兼容GPS、GLONASS、Galileo)基础定位数据

    2021年 1月 26日
  • 智加科技完成总计4.2亿美元新一轮融资

    2021年3月31日,重卡主动驾驭公司智加科技(Plus)继上月宣布2亿美元融资之后,完成新一轮2.2亿美元融资,方源本钱(FountainVest Partners)和锴明投资(ClearVue Partners) 领投,上汽本钱、红杉中国、满帮集团、广达电脑(Quanta Computer Inc.)、卓易本钱(Phi Zoyi Capital)、千禧本钱(Millennium Technology Value Partners)跟投。智加本轮融资总额达到4.2亿美元,其他投资人包含国泰君安国际,CPE等。据了

    2021年 3月 31日
  • Sora 竞争敌手融资数千万美元,目前可免费“薅”

    机器之能报道编纂:Sia效果确实没法和Sora比,但和其他敌手水平差不多。对于需要快速、低成本地建造商业推广视频的主体来说,又多了一个不错的选择。情绪的所有颜色,基于 Genmo 最新模型天生的作品视频链接:https://mp.weixin.qq.com/s/73spESo7dk-0Yy5AGL05pA"a dramatic black and white photo of a lighthouse at night, crashing waves on shore"https://mp.we

    2024年 3月 8日
  • 「清华系」视频天生公司生数科技宣布完成新一轮数亿元融资

    近日,北京生数科技有限公司(以下简称“生数科技”)宣布完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。本轮融资将主要用于多模态基础大模型的迭代研发、应用产品立异及市场拓展。本轮由华兴资本担任独家财务顾问。生数科技成立于2023年3月,是全世界领先的多模态大模型公司,致力于图象、3D、视频等原生多模态大模型的研发。生数科技核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技能人才。此前公司

    2024年 3月 12日
  • 冰鉴科技完成2.28亿元C2轮融资,国创中鼎领投

    上海冰鉴信息科技有限公司(以下简称冰鉴科技)近日宣布完成2.28亿元C2轮融资,该轮融资由国创中鼎领投,东方富海、曦域资本跟投。投中资本担任C2轮独家投资顾问。2020年底冰鉴科技宣布完成C1轮投资,C1和C2合称为C轮融资。本轮融资主要用于扩展研发团队,对上下游进行投资并购,以及完善公司生态建设和业务版图。冰鉴科技是一家利用人工智能手艺提供企业级效劳的高科技公司。经过近六年的发展,已成长为人工智能企业效劳畛域尤其是风控畛域的领军企业。同时,以金融行业效劳为根基,冰鉴科技不竭拓展人工智能运用边界,将领先的核心手艺转

    2021年 4月 12日
  • 图神经网络精确预计有机化合物性质,加速静态电池的设计

    编辑/绿萝大规模从头较量争论与布局预计的进步相结合,在有机功能资料的发觉中发挥了重要作用。目前,在有机资料的广阔化学空间中,只发觉了一小部分。实验和较量争论研讨职员都需要加速探索未知的化学空间。来自美国国家可再生能源实验室(NREL)、科罗拉多矿业学院和伊利诺伊大学的研讨职员展示了一种可以精确预计有机化合物性质的机械进修方法。展示了基态(GS)和更高能量布局的平衡训练数据集,对使用通用图神经网络(GNN)架构精确预计总能量的重要性。该研讨可加速静态电池的设计。该研讨以「Predicting energy and stabi

    2021年 12月 24日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注