给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

你在纸上写个词,AI 只要看一眼就能仿照你的笔迹,还是看起来毫无破绽的那种。

Facebook 近日公布了一项新的图象 AI——TextStyleBrush,该手艺可以复制和再现图象中的文本气概。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

借助该手艺,你只需要输出一个词作为「标准」,AI 就能全篇仿照你的书写气概,一键执行,效果可谓惊艳。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

此外,你还可以用它交换分歧场景中的笔墨(比如海报、垃圾桶、路标等)。下图中左侧为原始场景图象,单词显示在蓝色矩形中;右侧为文本交换后的图象。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

从图中可以看出,各种气概的字体 AI 几乎都能 hold 住。下图中每个图象对在左边显示输出源款式,在右边显示新实质(字符串),左右两端字体看起来气概完全相同。与源图象相比,输出的图象在外观上似乎都有些模糊,但我们可以看到,在大多数情况下,该手艺似乎工作得很好。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

与其他字迹仿照 AI 相比,TextStyleBrush 功能更强大,可以从更细微的角度分析笔墨款式,从而做到在各种角度和背景下进行字迹仿照。下图是酱油瓶(Soya)交换为茶瓶(Tea)的实现过程:

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

这款强大的仿照神器正是 Facebook AI 推出的「TextStyleBrush」,只需输出一个单词,就能完美复现笔迹。这项手艺的原理类似于笔墨处理 APP 中的款式笔刷工具,可以将笔墨和气概分开。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

论文地址:https://scontent-sjc3-1.xx.fbcdn.net/v/t39.8562-6/10000000_944085403038430_3779849959048683283_n.pdf?_nc_cat=108&ccb=1-3&_nc_sid=ae5e01&_nc_ohc=Jcq0m5jBvK8AX–fG2A&_nc_ht=scontent-sjc3-1.xx&oh=8b7e8221bba5aba6b6331c643764dec5&oe=60EF2B81

数据集地址:https://github.com/facebookresearch/IMGUR5K-Handwriting-Dataset

它具有以下特点:

只需要一个单词,就能复制照片中的笔墨气概。利用该 AI 模型,你可以编辑和交换图象中的文本。

与大多数 AI 系统分歧的是,TextStyleBrush 是首个自监视的 AI 模型,利用单个示例词一次性交换手写和图象中的文本。

将来它会在个性化信息和字幕等领域释放新的潜力,比如在增强现实 (AR) 中实现逼真的语言翻译。

通过公布这项研讨所具有的能力、格式和结果,研讨者希望推动对话和研讨,以发现这类手艺的潜在应用,如深度假文本攻击——这是人工智能领域的一大挑战。

由于 TextStyleBrush 也可能被用来制作误导性的图象,所以 Facebook 的 CTO 在个人社交网站表示,他们只发布了论文和数据集,但没有公开代码。并表示正如我们对 deepfakes 的格式一样,我们认为共享研讨和数据集将有助于构建检测系统并提前预防攻击。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

可以学习文本气概表征的 TextStyleBrush用 AI 天生图象一直在以惊人的速度发展,这种天生手艺能够重现历史场景,或者将照片变成梵高等绘画气概。现在,Facebook AI 已经建立了一个可以交换场景和手写文本气概的 AI,只需要一个单词作为输出。虽然大多数 AI 系统都可以完成定义明确的、专门的任务,但构建一个足够灵活的 AI 系统,以理解现实场景中文本和手写体的细微差别,具有很大的挑战。这意味着需要了解众多的文本款式,不仅包括分歧的字体和书写气概,而且也包括分歧的转换,如旋转、弯曲的笔墨以及图象噪声等问题。Facebook AI 提出了 TSB(TextStyleBrush)架构。该架构以自监视的格式进行训练,没有利用方向气概监视,只利用了原始气概图象。该框架可以自动地寻找图片真实气概。在训练时,它假设每个词框有真实值(出现在框中的文本);推理时,它采用单一源款式图象和新实质(字符串),并天生带有方向实质的源款式的新图象。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

该天生器架构是基于 StyleGAN2 模型。然而,它有两个重要的限制:首先,StyleGAN2 是一个无条件模型,这意味着它通过对一个随机的潜在向量进行采样来天生图象。但 TextStyleBrush 必须要天生指定文本的图象。其次,TextStyleBrush 天生的文本图象气概不受控制。文本气概涉及全局信息(例如调色板和空间变换),以及精细的比例信息组合(例如单个笔迹的细微变化。研讨者通过实质和气概表征来调节天生器以解决上述限制。通过提取特定于层的气概信息并将其注入到天生器的每一层来处理文本气概的多尺度特性。除了以期望的气概天生方向图象外,天生器还天生表示前景像素 (文本区域) 的软蒙版图象。通过这种方式,天生器可以控制文本的低分辨率和高分辨率细节,以匹配所需的输出气概。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

该研讨还引入了一种新的自监视训练准则,该准则利用字体(typeface)分类器、文本辨别器和对抗式鉴别器来保留源气概和方向实质。首先,研讨者通过利用预训练的字体分类网络来评估天生器捕获输出文本气概的能力。另外,他们利用预训练文本辨别网络来评估天生图象的实质,以反映天生器捕获方向实质的效果。总而言之,这种格式能够对训练进行有效的自监视。实行表 2 提供了评估分歧损失函数、气概特征扩展以及训练 TSB 时 mask 的作用消融实行结果。实行结果显示,TextStyleBrush 天生的图片在 MSE(合成误差)上大幅降低,PSNR(峰值信噪比)、SSIM(结构相似性)均获得了提高。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

表 3 是在三种数据集图象上测得的文本辨别准确率。实行结果显示,TSB 的辨别效果最好,在 IC13 上的辨别准确率为 97.2%,IC15 上的辨别准确率为 97.6%,TextVQA 上的辨别准确率为 95.0%。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

表 4 提供了天生的手写文本的定量比较,将 TSB 格式与 Davis 等人 [14] 专门为天生手写文本而设计的 SotA 格式进行了比较。FID 分数越低,天生质量越好。显然,TSB 格式优于以前的工作。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

TextStyleBrush 证明了 AI 在笔墨上面可以比过去更加灵活、准确地辨别,但这项手艺仍然存在许多问题,如无法仿照金属表面的字符或彩色字符等, Facebook 希望这项研讨能继续扩展,突破翻译、自主表达和 deepfake 研讨之间的障碍等。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

失败案例。参考链接:https://ai.facebook.com/blog/ai-can-now-emulate-text-style-in-images-in-one-shot-using-just-a-single-word

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/gei-yi-ge-ci-jiu-neng-fang-zhao-ni-de-bi-ji-facebook-zhe-ge/

(0)
上一篇 2021年 7月 26日 下午4:03
下一篇 2021年 7月 27日 下午4:01

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注