文本人脸合成指的是鉴于一个或多个文本描写,天生真实自然的人脸图象,并尽可能保证天生的图象符合对应文本描写,可以用于人机交互,艺术图象天生,以及根据受害者描写天生犯罪嫌疑人画像等。针对这个问题,中科院自动化所联合北方电子设备研究所提出了一种鉴于多输出的文本人脸合成要领(SEA-T2F),并建立了第一个手工标注的大规模人脸文本描写数据集(CelebAText-HQ)。该要领首次实现多个文本输出的人脸合成,与单输出的算法相比天生的图象更加接近真实人脸。相关成果论文《Multi-caption Text-to-Face Synthesis: Dataset and Algorithm》已被ACM MM 2021录用。
论文地址:https://zhaoj9014.github.io/pub/MM21.pdf
数据集和代码已开源:https://github.com/cripac-sjx/SEA-T2F
图1 分别要领的文本到人脸图象天生结果 相较于文本到自然图象的天生,文本到人脸天生是一个更具挑战性的任务,一方面,人脸具有更加细密的纹理和模糊的特色,难以建立人脸图象与自然语言的映射,另一方面,相关数据集要么是规模太小,要么直接鉴于属性标签用搜集天生,目前为止,还没有大规模手工标注的人脸文本描写数据集,极大地限制了该领域的发展。此外,目前鉴于文本的人脸天生要领[1,2,3,4]都是鉴于一个文本输出,但一个文本不足以描写复杂的人脸特色,更重要的是,由于文本描写的主观性,分别人对于同一张图片的描写可能会相互冲突,因此鉴于多个文本描写的人脸天生具有很重大的研究意义。针对该问题,团队提出了一个鉴于多输出的文本人脸天生算法。算法采用三阶段的天生对抗搜集框架,以随机采样的高斯噪声作为输出,来自分别文本的句子特色通过SFIM模块嵌入到搜集当中,在搜集的第二第三阶段分别引入了AMC模块,将分别文本描写的单词特色与中间图象特色通过注意力机制进行融合,以天生更加细密度的特色。为了更好地在文本中学习属性信息,团队设计了一个属性分类器,并引入属性分类损失来优化搜集参数。
图2 模型框架示意图此外,团队首次建立了一个大规模手工标注数据集,首先在CelebAMask-HQ数据集中筛选了15010张图片,每个图片分别由十个工作人员手工标注十个文本描写,十个描写按照由粗到细的顺序分别描写人脸的分别部位。 实验结果 团队对提出的要领进行了定性和定量分析[5,6],实验结果表明,该要领不仅能天生高质量的图象,并且更加符合文本描写。
图3 分别要领比较结果
图4 分别数量输出的天生结果
表1 分别要领的定量比较结果
表2 消融实验结果:前三行分别表示搜集去除SFIM,AMC,和属性分类损失。
参考文献:1. Osaid Rehman Nasir, Shailesh Kumar Jha, Manraj Singh Grover, Yi Yu, Ajit Kumar, and Rajiv Ratn Shah. 2019. Text2FaceGAN: face generation from fine grained textual descriptions. In IEEE International Conference on Multimedia Big Data (BigMM). 58–67.2. Xiang Chen, Lingbo Qing, Xiaohai He, Xiaodong Luo, and Yining Xu. 2019. FTGAN: A fully-trained generative adversarial networks for text to face generation. arXiv preprint arXiv:1904.05729 (2019).3. David Stap, Maurits Bleeker, Sarah Ibrahimi, and Maartje ter Hoeve. 2020. Conditional image generation and manipulation for user-specified content. arXiv preprint arXiv:2005.04909 (2020).4. Weihao Xia, Yujiu Yang, Jing-Hao Xue, and Baoyuan Wu. 2021. TediGAN: Textguided diverse image generation and manipulation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2256–2265.5. Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, and Xiaodong He. 2018. Attngan: Fine-grained text to image generation with attentional generative adversarial networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 1316–1324.6. Bowen Li, Xiaojuan Qi, Thomas Lukasiewicz, and Philip Torr. 2019. Controllable text-to-image generation. In Advances in Neural Information Processing Systems (NeuIPS). 2065–2075.
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/25902