在自然语言处理领域,搜集微调已经取得了许多进展,现在这一思想延展到了图象到图象变换的领域。
许多内容制作项目需要将简单的草图变换为逼真的图片,这就涉及图象到图象的变换(image-to-image translation),它应用深度天生模型学习给定输出的自然图片的前提分布。图象到图象变换的基本概念是利用预训练的神经搜集来捕捉自然图片流形(manifold)。图象变换类似于遍历流形并定位可行的输出语义点。系统应用许多图片对分解搜集举行预训练,以从其潜伏空间的任何采样中提供可靠的输出。通过预训练的分解搜集,卑鄙训练将用户输出调整为模型的潜伏表征。多年来,我们已经看到许多特定于工作的格式达到了 SOTA 水平,但目前的解决方案还是难以创办用于实际应用的高保真图片。在最近的一篇论文中,香港科技大学和微软亚洲研究院的研究者认为,对于图象到图象的变换,预训练才是 All you need。以往格式需要专门的架构设计,并从头开始训练单个变换模型,因而难以高品质地天生复杂场景,尤其是在配对训练数据不充足的情况下。因此,研究者将每个图象到图象的变换问题视为卑鄙工作,并引入了一个简单通用框架,该框架采用预训练的集中模型来适应各种图象到图象的变换。他们将提出的预训练图象到图象变换模型称为 PITI(pretraining-based image-to-image translation)。此外,研究者还提出用对抗训练来增强集中模型训练中的纹理分解,并与归一化指导采样结合以提升天生品质。最后,研究者在 ADE20K、COCO-Stuff 和 DIODE 等具有挑战性的基准上对各种工作举行了广泛的实证比较,表明 PITI 分解的图象显示出了前所未有的真实感和忠实度。
论文链接:https://arxiv.org/pdf/2205.12952.pdf项目主页:https://tengfei-wang.github.io/PITI/index.htmlGAN 已死,集中模型永存作者没有应用在特定领域表现最佳的 GAN,而是应用了集中模型,分解了广泛多样的图片。其次,它应该从两种类型的潜伏代码中天生图片:一种描述视觉语义,另一种针对图象波动举行调整。语义、低维潜伏对于卑鄙工作至关重要。否则,就不可能将模态输出变换为复杂的潜伏空间。鉴于此,他们应用 GLIDE 作为预训练的天生先验,这是一种可以天生不同图片的数据驱动模型。由于 GLIDE 应用了潜伏的文本,它允许语义潜伏空间。集中和基于分数的格式表现出跨基准的天生品质。在类前提 ImageNet 上,这些模型在视觉品质和采样多样性方面与基于 GAN 的格式相媲美。最近,用大规模文本图象配对训练的集中模型显示出惊人的能力。训练有素的集中模型可以为分解提供通用的天生先验。
框架作者可以应用前置(pretext)工作对大量数据举行预训练,并开发一个非常有意义的潜伏空间来预测图片统计。对于卑鄙工作,他们有前提地微调语义空间以映射特定于工作的环境。该机器根据预先训练的信息创办可信的视觉效果。作者建议应用语义输出对集中模型举行预训练。他们应用文本前提、图象训练的 GLIDE 模型。Transformer 搜集对文本输出举行编码,并为集中模型输出 token。按照计划,文本嵌入空间是有意义的。
上图是作者的作品。与从头开始的技术相比,预训练模型提高了图片品质和多样性。由于 COCO 数据集具有众多类别和组合,因此基本格式无法通过引人注目的架构提供美观的结果。他们的格式可以为困难的场景创办具有精确语义的丰富细节。图片展示了他们格式的多功能性。实验及影响表 1 显示,该研究所提格式性能始终优于其他模型。与较为领先的 OASIS 相比,在掩码到图象分解方面,PITI 在 FID 方面获得了显著的改进。此外,该格式在草图到图象和几何到图象分解工作中也显示出良好的性能。
图 3 展示了该研究在不同工作上的可视化结果。实验可得,与从头开始训练的格式相比,预训练模型显著提高了天生图象的品质和多样性。该研究所用格式可以产生生动的细节和正确的语义,即使是具有挑战性的天生工作。
该研究还在 Amazon Mechanical Turk 上的 COCO-Stuff 上举行了一项关于掩码到图象分解的用户研究,获得了 20 名参与者的 3000 票。参与者一次会得到两张图片,并被要求选择一张更真实的举行投票。如表 2 所示,所建议的格式在很大程度上优于从零开始的模型和其他基线。
前提图象分解可创办符合前提的高品质图片。计算机视觉和图形学领域应用它来创办和操作信息。大规模预训练改进了图片分类、对象识别和语义分割。未知的是大规模预训练是否有利于一般天生工作。能源应用和碳排放是图片预训练的关键问题。预训练是耗能的,但只需要一次。前提微调让卑鄙工作可以应用相同的预训练模型。预训练允许用更少的训练数据训练天生模型,当数据由于隐私问题或昂贵的注释成本而受到限制时,可以提升图象分解效果。原文链接:https://medium.com/mlearning-ai/finetuning-is-all-you-need-d1b8747a7a98#7015
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/23632