CVPR 2023 | 会模仿字迹的AI,为你创造专属字体

来自华南理工大学、新加坡国立大学、香港理工大学以及琶洲实验室的研究者们联合提出一种有趣的手写笔墨天生格式,仅需提供少许的参考样本即可摹仿用户的誊写气概,进而天生符合该气概的任意笔墨。

字迹模仿 AI 的研究背景

俗话说,见字如面,字如其人。相比呆板的打印字体,手写体更能体现誊写者的个人特点。相信很多人都曾设想过,拥有一套属于自己的手写字体,用在社交软件中,更好的展示自己的个人气概。

然而,不同于英笔墨母,汉字数量是极其庞大的,想要创造一套自己的专属字体代价十分高昂。例如,最新发布的国标GB18030-2022中笔墨符集包罗8万多个汉字。有报道称,某视频网站博主花了18个小时写完了7000多个汉字,中间耗费了足足13支笔,手都写麻了!

上述问题引发了论文作者的思考,能否设计一个笔墨自动天生模型,帮助解决专属字体创造代价高的问题呢?为了解决这一问题,研究者设想提出一个会字迹模仿的 AI,仅需用户提供少许的手写样本(大约 10 几张),就能提取字迹中蕴含的誊写气概(例如字符的大小、倾斜程度、横宽比、笔划的长短和曲率等),并且摹仿该气概去合成更多的笔墨,从而为用户高效合成一套完整的手写字体。

CVPR 2023 | 会模仿字迹的AI,为你创造专属字体

进一步地,论文作者从应用价值和用户体验两个角度出发,对该模型的输入和输出模态做了以下思考:1. 考虑到序列模态的在线字体 (online handwritings) 比图像模态的离线笔墨 (offline handwritings) 包罗更丰富的信息(轨迹点的详细位置和誊写顺序,以下图所示),将模型的输出模态设置为在线笔墨会有更广泛的应用前景,例如可以应用到机器人写字和书法教育上。2. 在日常生活中,相比通过平板和触摸笔等采集设备获取在线笔墨,人们利用手机拍照获取离线笔墨更加方便。因此,将天生模型的输入模态设为离线笔墨,用户使用起来会更加方便!

CVPR 2023 | 会模仿字迹的AI,为你创造专属字体

总结起来,本文的研究目标是提出一个气概化的在线手写笔墨天生模型 (stylized online handwriting generation method)。该模型既能摹仿用户提供的离线笔墨中所蕴含的誊写气概,又能根据用户需要在线天生实质可控的手写字迹。

CVPR 2023 | 会模仿字迹的AI,为你创造专属字体

论文地址:https://arxiv.org/abs/2303.14736

代码开源:https://github.com/dailenson/SDT

主要挑战

为了实现上述目标,研究者们分析了两个关键问题:1. 由于用户只能提供少许的字符样本,能否仅从这些少许的参考样本中进修用户独特的誊写气概呢?换句话说,根据少许的参考样本摹仿用户的誊写气概是否可行?2. 本文的研究目标不仅需要满足天生的笔墨气概可控,还需要实质也可控。因此,在进修到用户的誊写气概后,如何将该气概与笔墨实质高效的结合,从而天生满足用户期望的手写字迹?接下来让我们看看这篇 CVPR 2023 提出的 SDT(style disentangled Transformer)格式是怎样解决这两个问题的吧。

解决方案

研究动机 研究者发现,个人字迹中通常存在两种誊写气概:1. 相同誊写者的字迹存在着一种整体上的气概个性,各个字符呈现出相似的倾斜程度和宽高比,且不同誊写者的气概个性各不相同。由于这种特性可以用于区分出不同的誊写者,研究者们称其为誊写者气概。2. 除了整体上的气概个性,来自同一誊写者的不同字符间存在着细节上的气概不一致。例如,对于 “黑” 和 “杰” 两个字符,二者在字符结构上具有相同的四点水部首,但该部首在不同的字符中存在微弱的誊写差异,体现在笔划誊写的长短、位置和曲率上。研究者们将这种字形上的细微的气概模式称为字形气概。受启发于上述观察,SDT 旨在从个人字迹中解耦出誊写者和字形气概,期望提升对用户字迹的气概模仿能力。

CVPR 2023 | 会模仿字迹的AI,为你创造专属字体

在进修到气概信息后,不同于以往的手写笔墨天生格式简单的将气概和实质特征进行简单的拼接,SDT 将实质特征作为查询向量,自适应的捕获气概信息,从而实现气概和实质的高效交融,天生符合用户预期的手写字迹。

CVPR 2023 | 会模仿字迹的AI,为你创造专属字体

格式框架 SDT 的整体框架以下图所示,包罗双分支气概编码器、实质编码器和 transformer 解码器三部分。首先,本文提出两个互补的比较进修目标来引导气概编码器的誊写者分支和字形分支分别进修对应的气概提取。然后,SDT 利用 transformer 的注意力机制 (multi-head attention) 对气概特征和实质编码器提取到的实质特征进行动态交融,渐进式的合成在线手写笔墨。

CVPR 2023 | 会模仿字迹的AI,为你创造专属字体

(a) 誊写者气概比较进修 SDT 提出面向誊写者气概提取的有监督比较进修目标(WriterNCE),将属于相同誊写者的字符样本聚集在一起,推远属于不同誊写者的手写样本,显示地引导誊写者分支关注个人字迹中的气概个性。

(b) 字形气概比较进修 为了进修更加细节的字形气概,SDT 提出无监督的比较进修目标 (GlyphNCE),用于最大化相同字符不同视角间的互信息,鼓励字形分支专注进修字符中的细节模式。具体以下图所示,首先对同一张手写字符做两次独立的采样,获取一对含有笔划细节信息的正样本CVPR 2023 | 会模仿字迹的AI,为你创造专属字体CVPR 2023 | 会模仿字迹的AI,为你创造专属字体,然后从其他字符中采样得到负样本CVPR 2023 | 会模仿字迹的AI,为你创造专属字体。每次采样时,随机选择少许样本块作为包罗原始样本细节的新视角。样本块的采样服从均匀分布,避免字符的某些区域被过度采样。为了更好的引导字形分支,采样过程直接作用于字形分支输出的特征序列上。

CVPR 2023 | 会模仿字迹的AI,为你创造专属字体

(c) 气概和实质信息的交融策略 获取了两种气概特征后,如何将其与实质编码器进修到的实质编码进行高效交融呢?为了解决这一问题,在任意的解码时刻 t,SDT 将实质特征视作初始点,然后结合 q 和 t 时刻之前输出的轨迹点CVPR 2023 | 会模仿字迹的AI,为你创造专属字体形成新的实质上下文CVPR 2023 | 会模仿字迹的AI,为你创造专属字体。接着,实质上下文被视为 query 向量,气概信息作为 key & value 向量。在交叉注意力机制的交融下,实质上下文与两种气概信息依次完成动态聚合。

实验

定量评价 SDT 在中文、日文、印度文和英文数据集上都取得了最优异的性能,尤其是在气概分数指标上,相比之前的 SOTA 格式,SDT 取得了较大突破。

CVPR 2023 | 会模仿字迹的AI,为你创造专属字体

CVPR 2023 | 会模仿字迹的AI,为你创造专属字体

定性评价 在中文天生方面,相比以前的格式,SDT 天生的手写字符既能避免字符的崩坏又能很好的摹仿用户的誊写气概。得益于字形气概进修,SDT 在字符的笔划细节天生方面也能做的很好。

CVPR 2023 | 会模仿字迹的AI,为你创造专属字体

在其他语言上 SDT 也表现良好。尤其在印度文天生方面,现有主流格式很容易天生崩溃的字符,而我们的 SDT 依旧能够维持字符实质的正确性。

CVPR 2023 | 会模仿字迹的AI,为你创造专属字体

不同模块对算法性能的影响 以下表所示,本文提出的各个模块具有协同作用,有效提升了对用户字迹的摹仿性能。具体来说,誊写者气概的加入提升了 SDT 对字符整体气概的模仿,例如字符的倾斜程度和长宽比等,而字形气概的加入改善了天生字符的笔划细节。相比已有格式简单的交融策略,在各项指标上 SDT 的自适应动态交融策略全面增强了字符的天生性能。

CVPR 2023 | 会模仿字迹的AI,为你创造专属字体

CVPR 2023 | 会模仿字迹的AI,为你创造专属字体

两种气概的可视化分析 对两种气概特征进行傅里叶变换得到以下的频谱图,从图中观察到,誊写者气概包罗更多的低频成分,而字形气概主要关注高频成分。事实上,低频成分包罗目标的整体轮廓,高频成分则更加关注物体的细节。这一发现进一步验证和解释了解耦誊写气概的有效性。

CVPR 2023 | 会模仿字迹的AI,为你创造专属字体

展望

大家可以通过字迹 AI 创造自己的专属字体,在社交平台上更好的表达自我!

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/20752

(0)
上一篇 2023年6月14日 下午2:14
下一篇 2023年6月14日 下午2:27

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注