给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

你在纸上写个词,AI 只要看一眼就能仿照你的笔迹,还是看起来毫无破绽的那种。

Facebook 近日公布了一项新的图象 AI——TextStyleBrush,该手艺可以复制和再现图象中的文本气概。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

借助该手艺,你只需要输出一个词作为「标准」,AI 就能全篇仿照你的书写气概,一键执行,效果可谓惊艳。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

此外,你还可以用它交换分歧场景中的笔墨(比如海报、垃圾桶、路标等)。下图中左侧为原始场景图象,单词显示在蓝色矩形中;右侧为文本交换后的图象。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

从图中可以看出,各种气概的字体 AI 几乎都能 hold 住。下图中每个图象对在左边显示输出源款式,在右边显示新实质(字符串),左右两端字体看起来气概完全相同。与源图象相比,输出的图象在外观上似乎都有些模糊,但我们可以看到,在大多数情况下,该手艺似乎工作得很好。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

与其他字迹仿照 AI 相比,TextStyleBrush 功能更强大,可以从更细微的角度分析笔墨款式,从而做到在各种角度和背景下进行字迹仿照。下图是酱油瓶(Soya)交换为茶瓶(Tea)的实现过程:

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

这款强大的仿照神器正是 Facebook AI 推出的「TextStyleBrush」,只需输出一个单词,就能完美复现笔迹。这项手艺的原理类似于笔墨处理 APP 中的款式笔刷工具,可以将笔墨和气概分开。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

论文地址:https://scontent-sjc3-1.xx.fbcdn.net/v/t39.8562-6/10000000_944085403038430_3779849959048683283_n.pdf?_nc_cat=108&ccb=1-3&_nc_sid=ae5e01&_nc_ohc=Jcq0m5jBvK8AX–fG2A&_nc_ht=scontent-sjc3-1.xx&oh=8b7e8221bba5aba6b6331c643764dec5&oe=60EF2B81

数据集地址:https://github.com/facebookresearch/IMGUR5K-Handwriting-Dataset

它具有以下特点:

只需要一个单词,就能复制照片中的笔墨气概。利用该 AI 模型,你可以编辑和交换图象中的文本。

与大多数 AI 系统分歧的是,TextStyleBrush 是首个自监视的 AI 模型,利用单个示例词一次性交换手写和图象中的文本。

将来它会在个性化信息和字幕等领域释放新的潜力,比如在增强现实 (AR) 中实现逼真的语言翻译。

通过公布这项研讨所具有的能力、格式和结果,研讨者希望推动对话和研讨,以发现这类手艺的潜在应用,如深度假文本攻击——这是人工智能领域的一大挑战。

由于 TextStyleBrush 也可能被用来制作误导性的图象,所以 Facebook 的 CTO 在个人社交网站表示,他们只发布了论文和数据集,但没有公开代码。并表示正如我们对 deepfakes 的格式一样,我们认为共享研讨和数据集将有助于构建检测系统并提前预防攻击。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

可以学习文本气概表征的 TextStyleBrush用 AI 天生图象一直在以惊人的速度发展,这种天生手艺能够重现历史场景,或者将照片变成梵高等绘画气概。现在,Facebook AI 已经建立了一个可以交换场景和手写文本气概的 AI,只需要一个单词作为输出。虽然大多数 AI 系统都可以完成定义明确的、专门的任务,但构建一个足够灵活的 AI 系统,以理解现实场景中文本和手写体的细微差别,具有很大的挑战。这意味着需要了解众多的文本款式,不仅包括分歧的字体和书写气概,而且也包括分歧的转换,如旋转、弯曲的笔墨以及图象噪声等问题。Facebook AI 提出了 TSB(TextStyleBrush)架构。该架构以自监视的格式进行训练,没有利用方向气概监视,只利用了原始气概图象。该框架可以自动地寻找图片真实气概。在训练时,它假设每个词框有真实值(出现在框中的文本);推理时,它采用单一源款式图象和新实质(字符串),并天生带有方向实质的源款式的新图象。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

该天生器架构是基于 StyleGAN2 模型。然而,它有两个重要的限制:首先,StyleGAN2 是一个无条件模型,这意味着它通过对一个随机的潜在向量进行采样来天生图象。但 TextStyleBrush 必须要天生指定文本的图象。其次,TextStyleBrush 天生的文本图象气概不受控制。文本气概涉及全局信息(例如调色板和空间变换),以及精细的比例信息组合(例如单个笔迹的细微变化。研讨者通过实质和气概表征来调节天生器以解决上述限制。通过提取特定于层的气概信息并将其注入到天生器的每一层来处理文本气概的多尺度特性。除了以期望的气概天生方向图象外,天生器还天生表示前景像素 (文本区域) 的软蒙版图象。通过这种方式,天生器可以控制文本的低分辨率和高分辨率细节,以匹配所需的输出气概。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

该研讨还引入了一种新的自监视训练准则,该准则利用字体(typeface)分类器、文本辨别器和对抗式鉴别器来保留源气概和方向实质。首先,研讨者通过利用预训练的字体分类网络来评估天生器捕获输出文本气概的能力。另外,他们利用预训练文本辨别网络来评估天生图象的实质,以反映天生器捕获方向实质的效果。总而言之,这种格式能够对训练进行有效的自监视。实行表 2 提供了评估分歧损失函数、气概特征扩展以及训练 TSB 时 mask 的作用消融实行结果。实行结果显示,TextStyleBrush 天生的图片在 MSE(合成误差)上大幅降低,PSNR(峰值信噪比)、SSIM(结构相似性)均获得了提高。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

表 3 是在三种数据集图象上测得的文本辨别准确率。实行结果显示,TSB 的辨别效果最好,在 IC13 上的辨别准确率为 97.2%,IC15 上的辨别准确率为 97.6%,TextVQA 上的辨别准确率为 95.0%。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

表 4 提供了天生的手写文本的定量比较,将 TSB 格式与 Davis 等人 [14] 专门为天生手写文本而设计的 SotA 格式进行了比较。FID 分数越低,天生质量越好。显然,TSB 格式优于以前的工作。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

TextStyleBrush 证明了 AI 在笔墨上面可以比过去更加灵活、准确地辨别,但这项手艺仍然存在许多问题,如无法仿照金属表面的字符或彩色字符等, Facebook 希望这项研讨能继续扩展,突破翻译、自主表达和 deepfake 研讨之间的障碍等。

给一个词就能仿照你的笔迹,Facebook这个AI强大到不敢开源代码

失败案例。参考链接:https://ai.facebook.com/blog/ai-can-now-emulate-text-style-in-images-in-one-shot-using-just-a-single-word

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/gei-yi-ge-ci-jiu-neng-fang-zhao-ni-de-bi-ji-facebook-zhe-ge/

(0)
上一篇 2021年 7月 26日 下午4:03
下一篇 2021年 7月 27日 下午4:01

相关推荐

  • 时空智能新赛道是怎样炼成的?千寻地位引领自立技巧创新突破

    2020年10月,华为推出Mate 40系列旗舰手机,在全球范围内首次完成车道级导航功能,及时显示用户所在车道地位。2020年11月,小鹏汽车智能轿跑P7,通过OTA升级,在深圳、重庆、杭州等高速公路上,可完成NGP高速自立导航驾驶。2020年初,武汉火神山医院在建设中,一次性完成放线测量,精确标绘,与病魔赛跑,向世界展示“十几天建一所医院”的壮举。这一年,人们离自动驾驶更近了,手机导航有了不同的体验,战疫的身影中有了科技力量。在这背后,是时空智能这项中国自立研发的技巧在消费级场景全方位渗透。作为千寻地位开创的硬核

    2021年 5月 27日
  • 阿里数据中台底座的12年建造实践

    文/阿里云智能计较平台事业部研究员 关涛阿里巴巴数据平台发展的四大阶段建立数据中台,一个强大的数据平台作为底座必不可少。 阿里巴巴数据平台发展的四个阶段,一定程度上其实也是阿里巴巴数据中台发展的四个阶段。这四个阶段里,你可以看到阿里巴巴对自身数据的商业价值的萃取,对原有分而治之的数据系统的聚合,对计较数据财产化和数据高效应用的新思路以及对数据平台处置过程中面临的组织变革等。阶段一:交易百花齐放,发现数据价值2009年到2012年,阿里巴巴电商交易进入爆发期,涌现出非常多有名的交易团队,比如淘宝、

    2021年 9月 29日
  • 130亿光年:刚刚,NASA发布了宇宙最深处的影像

    北京光阴 7 月 12 日早晨,美国宇航局(NASA)公布了詹姆斯・韦伯太空千里镜拍摄的第一张全彩图象,这是深空天文台的一次重要时刻,标志着其进入科学研究第一年的开始。

    2022年 7月 12日
  • 150页在线书「若干深度进修」上线:利用对称性和不变性解决呆板进修问题

    CNN、GNN、LSTM、Transformer 等深度进修模型之间的共通之处是什么?在这本书里问题得到了解答。

    2021年 4月 30日
  • Byte Lab | 小鹏G9评测:一半超出预期,一半不如人意

    全新800V高压SiC平台、XPower 3.0能源系统、首个3D人机交互系统、新一代智能驾驭系统XNGP……作为全新旗舰车型,G9几近汇集了小鹏的全部最新技术,再加上上市之后的配置调整,让这款车持续占据焦点。虽然本次试驾的小鹏G9还只是PT版本,部分功效还未达到最终的交付状态,多个智能功效也未打开。但既然可供媒体评测,说明这已是比较成熟的版本。此次Auto Byte就对PT车进行了基本感触,并对其优缺点均进行了梳理。「最大彩蛋」:能源表现在小鹏G9上,能源和悬架是造成如此大价格跨度的最

    2022年 11月 8日
  • 华为云位居中国DevOps市场领导者,份额、战略双第一!

    9月21日 ,国际权威阐明师机构IDC发布《IDC MarketScape: 中国 DevOps 平台市场厂商评价,2022》报告。本次报告, IDC从公司规模、产品技术、市场份额以及未来发展战略等维度对众多云厂商进行评价,华为云软件开发生产线DevCloud在市场份额和发展战略两大维度均排名第一,再次位居领导者位置。华为云DevCloud作为一站式、平安可托、全流程矫捷的DevOps云平台,已上线13项端到端子办事,办事于220万开发者,应用于10多个行业,覆盖开发全场景,全面领跑DevOps云办事市场。报告指出

    2022年 9月 22日
  • WAIC开发者日Workshop预告:超参数科技如何索求海量AI计划问题

    近年来,无论是在学术研究还是产业落地层面,关注的焦点都在从智能感知向智能计划阶段过渡。「计划 AI」逐渐成为热点问题,不管是谷歌、微软、IBM 等全球科技巨头,还是国内一众 AI 龙头企业,均积极投身于智能计划的相关研究。其中,海量 AI 如何在大型开放世界做智能计划,是推动智能计划手艺发展、加速社会智能化转型的重要问题,也是人工智能领域的手艺难题之一。为深入研究海量 AI 前沿问题,超参数科技联合麻省理工学院、清华大学深圳国际研究生院,以及数据科学挑战平台 Alcrowd 主办了 Neural MMO 系列挑战赛

    2022年 8月 30日
  • 哥德尔90年前的「不完备性定理」,奠定了估计机与AI的实际根蒂根基

    大神早已远去,而他的光芒仍在人间。

    2021年 6月 18日
  • 滴滴主动驾驭将获超3亿美元融资,市值或超小马智行

    日前,据媒体报道,滴滴主动驾驭即将完成新一轮融资,融资金额超3亿美元,其中广汽集团投资2亿美元(广汽集团直接投资1亿美元,广汽资本旗下基金投资1亿美元)。自2019年滴滴主动驾驭从滴滴出行中拆分独立后,该公司目前共计融资超11亿美元(约70亿元人民币)。有知情人士称,在此轮融资过后,滴滴主动驾驭估值将超过小马智行。值得注意的是,5月17日,滴滴主动驾驭与广汽埃安新能源汽车便已达成战略单干,单方将在智能汽车领域探讨单干模式,结合滴滴主动驾驭软、硬件技术研发优势与广汽埃安的主动驾驭整车平台及整车设计制造能力,开发一款可

    2021年 6月 1日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注