一些 AI 模型因在创意图象天生、编辑方面的应用引起了公众的广泛关注,例如 OpenAI 先后推出的文本图象模型 DALL・E 和 DALL-E 2,以及英伟达的 GauGAN 和 GauGAN2。谷歌也不甘落后,在 5 月底发布了自己的文本到图象模型 Imagen,看起来进一步拓展了字幕条件(caption-conditional)图象天生的边界。仅仅给出一个场景的描述,Imagen 就能天生高质量、高分辨率的图象,无论这种场景在现实世界中是否合乎逻辑。下图为 Imagen 文本天生图象的几个示例,在图象下方显示出了相应的字幕。这些令人印象深刻的天生图象不禁让人想了解:Imagen 到底是如何工作的呢?近期,开发者讲师 Ryan O'Connor 在 AssemblyAI 博客撰写了一篇长文《How Imagen Actually Works》,详细解读了 Imagen 的工作原理,对 Imagen 进行了概览介绍,分析并理解其高级组件以及它们之间的联系。Imagen 工作原理概览在这部分,作者展示了 Imagen 的整体架构,并对其它的工作原理做了高级解读;然后依次更透彻地剖析了 Imagen 的每个组件。以下动图为 Imagen 的工作流程。
首先,将字幕输入到文本编码器。该编码器将文本字幕转换成数值表示,后者将语义信息封装在文本中。Imagen 中的文本编码器是一个 Transformer 编码器,其确保文本编码能够理解字幕中的单词如何彼此联系,这里运用自注意力方法。如果 Imagen 只关注单个单词而不是它们之间的联系,虽然可以获得能够捕获字幕各个元素的高质量图象,但描述这些图象时无法以恰当的方式反映字幕语义。以下图示例所示,如果不考虑单词之间的联系,就会产生截然不同的天生效果。
虽然文本编码器为 Imagen 的字幕输入天生了有用的表示,但仍需要设计一种方法天生运用这一表示的图象,也即图象天生器。为此,Imagen 运用了散布模型,它是一种天生模型,近年来得益于其在多项任务上的 SOTA 功能而广受欢迎。散布模型通过添加噪声来破坏训练数据以实现训练,然后通过反转这个噪声历程来学习恢复数据。给定输入图象,散布模型将在一系列时间步中迭代地利用高斯噪声破坏图象,最后留下高斯噪声或电视噪音静态(TV static)。下图为散布模型的迭代噪声历程:
然后,散布模型将向后 work,学习如何在每个时间步上隔离和消除噪声,抵消刚刚发生的破坏历程。训练完成后,模型可以一分为二。这样可以从随机采样高斯噪声开始,运用散布模型逐渐去噪以天生图象,具体以下图所示:
总之,经过训练的散布模型从高斯噪声开始,然后迭代地天生与训练图象类似的图象。很明显的是,无法控制图象的实际输入,仅仅是将高斯噪声输入到模型中,并且它会输入一张看起来属于训练数据集的随机图象。但是,目标是创建能够将输入到 Imagen 的字幕的语义信息封装起来的图象,因此需要一种将字幕合并到散布历程中的方法。如何做到这一点呢?上文提到文本编码器产生了有代表性的字幕编码,这种编码实际上是向量序列。为了将这一编码信息注入到散布模型中,这些向量被聚合在一起,并在它们的基础上安排散布模型。通过安排这一向量,散布模型学习如何安排其去噪历程以天生与字幕匹配良好的图象。历程可视化图以下所示:
由于图象天生器或基础模型输入一个小的 64×64 图象,为了将这一模型上采样到最后的 1024×1024 版本,运用超分辨率模型智能地对图象进行上采样。对于超分辨率模型,Imagen 再次运用了散布模型。整体流程与基础模型基本相同,除了仅仅基于字幕编码安排外,还以正在上采样的更小图象来安排。整个历程的可视化图以下所示:
这个超分辨率模型的输入实际上并不是最后输入,而是一个中等大小的图象。为了将该图象放大到最后的 1024×1024 分辨率,又运用了另一个超分辨率模型。两个超分辨率架构大致相同,因此不再赘述。而第二个超分辨率模型的输入才是 Imagen 的最后输入。为什么 Imagen 比 DALL-E 2 更好?确切地回答为什么 Imagen 比 DALL-E 2 更好是困难的。然而,功能差距中不可忽视的一部分源于字幕以及提示差异。DALL-E 2 运用对比目标来确定文本编码与图象(本质上是 CLIP)的相关程度。文本和图象编码器安排它们的参数,使得相似的字幕 – 图象对的余弦相似度最大化,而不同的字幕 – 图象对的余弦相似度最小化。功能差距的一个显著部分源于 Imagen 的文本编码器比 DALL-E 2 的文本编码器大得多,并且接受了更多数据的训练。作为这一假设的证据,我们可以在文本编码器扩大时检查 Imagen 的功能。下面为 Imagen 功能的帕累托曲线:
放大文本编码器的效果高得惊人,而放大 U-Net 的效果却低得惊人。这一结果表明,相对简单的散布模型只要以强大的编码为条件,就可以产生高质量的结果。鉴于 T5 文本编码器比 CLIP 文本编码器大得多,再加上自然语言训练数据必然比图象 – 字幕对更丰富这一事实,大部分功能差距可能归因于这种差异。除此以外,作者还列出了 Imagen 的几个关键要点,包括以下内容:扩大文本编码器是非常有效的;扩大文本编码器比扩大 U-Net 大小更重要;动态阈值至关重要;噪声条件增强在超分辨率模型中至关重要;将交叉注意用于文本条件反射至关重要;高效的 U-Net 至关重要。这些见解为正在研究散布模型的研究人员提供了有价值的方向,而不是只在文本到图象的子领域有用。原文链接:https://www.assemblyai.com/blog/how-imagen-actually-works/
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/25532