给几个关键词就能出摄影大片，英伟达GauGAN上新2.0：将文本转成传神图象

这么美的照片竟然不是出自摄影师之手？！

在 2019 年举办的 GTC 大会上，英伟达展示了一款新的交互应用 GauGAN：利用生成对抗网络（GAN）将联系图转换为栩栩如生的图象。

时隔 2 年，英伟达官方推出了 GauGAN 的继任者 GauGAN2，允许用户创设不存在的传神景物图象。GauGAN2 将联系映射、修复和文本到图象生成等技术结合在一个工具中，旨在输出文字和简单的绘图就能创设传神的图象。

英伟达表示：「与类似的图象生成模型相比，GauGAN2 的神经网络能够产生更多种类和更高质量的图象。」用户无需绘制想象场景的每个元素，只需输出一个简短的短语即可快速生成图象的关键特征和主题。

例如输出「海浪打在岩石上」，模型会根据生成的内容逐渐进行相应的调整，以生成与描述立室的传神图象。

给几个关键词就能出摄影大片，英伟达GauGAN上新2.0：将文本转成传神图象

目前 GauGAN2 还在研发阶段，但英伟达已为用户提供了一个 demo 地址，可在线试玩。

试玩地址：https://www.nvidia.com/en-us/research/ai-demos/

简单输出几个关键词就能生成想要的景物图，看起来非常有趣。

GauGAN2 的生成形式

GauGAN2 现在有几种形式，可以从不同的输出生成传神的图象。

形式 1：输出简笔画。

给几个关键词就能出摄影大片，英伟达GauGAN上新2.0：将文本转成传神图象

形式 2：输出文本。

给几个关键词就能出摄影大片，英伟达GauGAN上新2.0：将文本转成传神图象

这种输出文本生成立室图象的形式也是 GauGAN2 主要的创新，生成的图象会根据逐渐输出的文本不断发生变化，最终生成和文本立室最佳的图象。

例如在下图的示例中，文本首先输出「sunshine（阳光）」，生成的图象中就只出现了一个太阳；之后继续输出「a tall tree（高树）」，图象中就出现了树（且为顶部树枝，立室「高树」）；最后，输出的全部文本是「sunshine in a tall tree forest」，意为「透过森林的阳光」，GauGAN2 最终生成的图象与之相立室：

给几个关键词就能出摄影大片，英伟达GauGAN上新2.0：将文本转成传神图象

形式 3：输出图象并编辑部分内容。

例如，抹掉想要移除的内容，在生成的图象中会保留剩余的部分，并自动补全出多种新的完整图象：

给几个关键词就能出摄影大片，英伟达GauGAN上新2.0：将文本转成传神图象

此外，第一版 GauGAN 的涂鸦形式在 GauGAN2 也同样适用。

给几个关键词就能出摄影大片，英伟达GauGAN上新2.0：将文本转成传神图象

上述几种形式也可以混合叠加使用，例如在用涂鸦绘画等生成图象后，输出文本进行相应的修改，下图就生成了一座阳光下的「空中楼阁」：

给几个关键词就能出摄影大片，英伟达GauGAN上新2.0：将文本转成传神图象

从文本生成图象，如何实现？

从 2019 年开始，英伟达开始改进 GauGAN 系统，该系统由超过一百万个公共 Flickr 图象训练而成。与 GauGAN 一样，GauGAN2 可以理解雪、树、水、花、灌木、丘陵和山脉等物体之间的关系，例如降水类型随季节变化的事实。

GauGAN2 作为生成对抗网络 (GAN) 的一种变体，由生成器和鉴别器组成。生成器用于获取样本，例如获取与文本配对的图象，并预测可能与图片中元素（例如山水、树木）对应的数据。生成器试图通过「欺骗」鉴别器来进行训练，鉴别器则用于评估预测结果是否真实。虽然 GAN 的转换最初质量很差，但它随着鉴别器的反馈而不断改进。

与 GauGAN 不同的是，GauGAN2 是在 1000 万张图象上训练而成——可以将自然语言描述转换成景物图。GauGAN2 在单个模型中结合了联系映射、修复和文本到图象的生成。它不仅可以创设传神的图象，艺术家还可以使用它来描绘超凡脱俗的景物，即实际中并不存在的艺术场景。

例如星球大战系列中塔图因星有两个太阳。借助 GauGAN2 只需输出文本「desert hills sun」来创设一个起点，之后用户可在已有一个太阳的情况下快速绘制草图，生成想要的效果。

给几个关键词就能出摄影大片，英伟达GauGAN上新2.0：将文本转成传神图象

这是一个迭代的过程，用户在文本框中键入的每个词都会为 AI 创设的图象添加更多内容，因而 GauGAN2 才能随着输出文本而不断变换图象。

GauGAN2 背后的 AI 模型使用 NVIDIA Selene 超级计算机，在 1000 万张高质量景物图象上进行了训练，这是一个 NVIDIA DGX SuperPOD 系统，是世界上最强大的 10 台超级计算机之一。GauGAN2 还借助神经网络来学习词汇与其对应的视觉效果之间的联系，例如「冬天」、「有雾」等。

面向实际应用

GauGAN2 从实用的角度讲是视觉创意生成器，在电影、软件、视频游戏、产品、时尚和室内设计中具有潜在应用。英伟达声称第一版 GauGAN 已被用于为电影和视频游戏创设概念艺术。类似地，GauGAN2 未来也将提供开源代码并投入应用。

与 GauGAN2 类似，今年年初 OpenAI 发布了号称图象版 GPT-3、120 亿参数的 DALL-E，后者可以将以自然语言形式表达的大量概念转换为合适的图象，效果十分惊艳。

此类生成模型的一个缺点是可能存在成见。例如在 DALL-E 中，OpenAI 使用 CLIP 模型来提高生成图象质量，但几个月前有研究发现 CLIP 存在种族和性别成见问题。

英伟达暂不会对 GauGAN2 是否存在成见给出回应。英伟达发言人表示：「该模型有超过 1 亿个参数，训练时间不到一个月（还在 demo 阶段），训练图象来自专有的景物图象数据集。因此 GauGAN2 只专注于景物，研究团队还对图象进行审核以确保图片中没有包含人的场景。」这将有助于减少 GauGAN2 的成见。

参考链接：https://blogs.nvidia.com/blog/2021/11/22/gaugan2-ai-art-demo/

{{userData.name}}已认证

给几个关键词就能出摄影大片，英伟达GauGAN上新2.0：将文本转成传神图象

观点 | 物理车钥匙该退出历史舞台了吗？

清华电子工程系系主任汪玉中选IEEE Fellow：因领域专用加速器设计贡献

独家对话李岩：宿华、经纬、红点资金支持，第一个「生成式推荐」创业公司｜AI Pioneers

墙裂推荐！Karpathy大模型培训课LLM101n上线了，非常基础

baidu李彦宏：开源模型是智商税，闭源模型更强大、推理本钱更低

Midjourney 再更新！V6 模型支持外绘拓展与局部重绘了!

Python 3.11正式版来了，比3.10快10-60%，官方：这或许是最好的版本

无需训练，主动扩大的视觉Transformer来了

教授何恺明在MIT的第一堂课

百分点认知智能实验室：智能对话技术应用和实践