大师好,我是和你们聊设计的花生~
之前给大师推荐了 AI 图画生成器 Disco Difussion,它可以根据文本提醒主动生成恢弘奇幻的艺术,无比适合作为艺术创作的灵感起原。
那如果现在有一款新的 AI 图象工具,它可以根据你给出的「文本提醒」,主动合成犹如照片般的真实场景,或者可以根据你给出的文字提醒主动修正照片中的某个部分,而且毫无 PS 痕迹,你会怎么看呢?
有关注阿文(微博 @Simon_阿文)的小伙伴可能已经知道,已经有人工智能可以实现上述功效了,而且生成速度极快,图片质量无比高。今天我要和大师介绍的,就是这样一个能根据语言形貌,创建传神的图象和艺术的人工智能系统 —— DALL·E 2。
DALL·E 2 主要功效
DALL·E 2 是由 OpenAI 公司研发的一款新的人工智能系统,它不仅可以更根据文本形貌生成对应的传神图象,还可以根据文本提醒修正图象内容,以及根据给定的图象拓展生成多种中心风格一致的“变体”。
1. 图象生成功效
我们先来看一组图片:
这些图片是不是看起来无比真实?如同用相机拍出来的一样。但其实,这些图片都是 DALL·E 2 根据给定的文本,通过模型渲染出来的,是完全的虚拟产物。
这就是 DALL·E 2 最主要也是最擅长的功效——根据语句形貌创建传神的图象和艺术。以往我们想得到一个具体的场景,必要通过布景摄影或者绘画来实现,一些具有真实感的奇幻场景更少不了后期合成,而DALL·E 2让这一切都不再复杂。
除了生成传神的图象,DALL·E 2 也能根据提醒生成具有不同艺术风格的图象:
图片起原:DALL·E 2 民间 Instagram
2. 图象修正功效
除了根据文本形貌提醒生成图象,DALL·E 2 还可以根据给出的提醒,修正现有图象。
这种修正包括删除、增加、替换、重塑图片的任意部分,同时考虑阴影、反射和纹理等各方面影响,修正后的图象看不任何修正痕迹。
图片起原:DALL·E 2 官网
之前优设有给大师推荐过智能修图软件,可以能借助 AI 算法实现元素无痕去除。DALL·E 2 的技术则更上一层楼,可以直接添加或替换元素,这对设计师来说无疑是提高工作效率的利器。
3. 风格延展功效
DALL·E 2 可以根据一张给定的图片,生成许多与之相干的“变体”。这些“变体”在中心与风格上与原图保持一致,在其他细节方面会主动生成很多变化。
图片起原:DALL·E 2 官网
DALL·E 2 的优点及不足
不同于 Disco Difussion 的 CLIP+generator,DALL·E 2 开发了一种新的文本-图象生成方法,称为 unCLIP。unCLIP 让 DALL·E 2 无论是识别文本及图象准确程度还是图象生成速度上,都有了极大地提升。
OpenAI 联合创始人 Aditya Ramesh 通过 Twitter 分享的 DALL·E 2 模型运作过程
1. 极高的图象质量及精准度
在 2021 年 1 月,OpenAI 公司就推出了 DALL·E 1,但那时生成出的图片质量较低,与提醒文本的立室度也只有 71.7%。一年后,新的 DALL·E 2 系统可以生成 4 倍于之前的高分辨率图象,立室程度也上升至 88.8%,生成的图象更传神准确。
图片起原:DALL·E 2 官网
通过深度学习,DALL·E 2 还能如人一样理解两个物体间的关系。
当你输入文本“一只考拉骑着摩托车”时,DALL·E 2 能够明白「考拉」与「摩托车」之间的「骑」的动作关系,然后主动创作相应的图象。
图片起原:DALL·E 2 官网
2. 极快的图象生成速度
平时我们必要找到一张符合中心的图片,少不了要去不同的网站搜索一番;要修正图片的某一部分,也必要手动用图片工具调整,所需的时间都不算少。
而 DALL·E 2 能在或十几秒内,就生成与文本立室的图象,一次性生成的图片数量有达到 10 张之多。删除、增加、替换、重塑图片的任意部分也不再必要人工一点点去修复,修复质量也更精准自然。
Twitter 用户 @karenxcheng 发布的一段 DALL·E 2 测试视频,视频中由文本生成图片只需几秒。
视频地址: https://twitter.com/karenxcheng/status/1513569345049280512
DALL·E 2 的 unCLIP 模型使其生成的图象与文本提醒的立室度无比高,不像 Disco Diffusion 一样会错误理解文本形貌,将水印或者把艺术家本人当成关联图象的一部分。
但如果 DALL·E 2 的模型在训练过程中,学习到的图象与其关联标签是错误的,那么最终生成的图象结果就是错误的。比如,训练到的信息是:与图片 「飞机」关联的标签是 「车」,那么其在生成关于「车」的图片时,就会产生包含「飞机」的图片,并不像人一样能主动进行纠错。
另外 DALL·E 2 在生成的多角度真实图象时,也会出现透视比例失真问题。
DALL·E 2 的潜在机遇与风险
DALL·E 2 功效如此强大迷人,想必大师都无比想亲自使用体验。但无比遗憾,DALL·E 2 的程序目前并不对公众开发,我们目前在网上看到的 DALL·E 2 相干信息,都是 DALL·E 2 官网、内部工作人员及少数特邀的相干行业专家发布出来的。
如果想要使用 DALL·E 2,目前唯一的办法就是通过官网申请进入候补名单,等待民间的邀请。
之所以采取这样谨慎的方式,是因为 OpenAI 公司深知 DALL·E 2 强大的图象生成和修正技术一旦开放使用,将会给社会的很多方面带来极大冲击和影响。
从好的方面来说,DALL·E 2 的合理运用可以给教育、艺术创意、营销、设计、研究等领域的发展带来极大方便。人们可以借用 DALL·E 2 生成图象来解释抽象的原理或者概念;也可用 DALL·E 2 让脑海中复杂的、天马行空的想法与创意快速成型,并可以随时修正;甚至可以将 DALL·E 2 作为生产工具,成为艺术创作流程的一部分。
推特网友 @benbarry 用 DALL·E 2 以「机器人画画」为中心,生成了 1000 张相干图象,这些图象已经被整理成一本书,分享在 「Internet Archive」 上共所有人免费下载阅读。
但 DALL·E 2 也存在着被滥用的风险,比如用以生成血腥、暴力、露骨、低俗内容;伪造虚假的图象威胁诬告他人;或生成重大事件的虚假图象误导社会舆论等。
为了避免此类问题,DALL·E 2 对系统模型进行了预训练过滤,所有暴力、露骨内容都从其训练数据中删除,以限制 DALL·E 2 生成相干图象的能力。但是这并不能完全杜绝相干内容的出现,一些间接的形貌可以绕过 DALL·E 2 的过滤设置。
下图是民间给出的一张示例,我们可以从中感受到人工智能被滥用的可怕后果。
此外,DALL·E 2 也带有一些原生的限制。据民间介绍,DALL·E 2 在默认情况下生成的图象,都以白人和西方文化特征为主,比如涉及到“婚礼”时,会假定是西方婚礼传统,并默认为异性恋夫妇。而且存在一些“刻板印象”:涉及到 CEO,图象都是男性,而涉及到空姐、护士的概念时,形象都是女性等,这些都是 DALL·E 2 目前正在改进并必要不断完善的地方。
总结
DALL·E 2 通过文本提醒进行图象生成及修正方面的功效无比强大,可以达到以假乱真的地步。它的出现,无疑会给艺术、营销、设计、研究相干行业带来革命性的改变,但同时也存在被滥用的风险,必要谨慎、有限制性地使用。