如何利用好如此强大的「联系一切」模型,并拓展到更加有实际需求的应用场景至关重要。例如,当 SAM 遇上实用的图象修理(Image Inpainting)任务会碰撞出什么样的火花?
来自中国科学技术大学和东方理工高等研究院的研究团队给出了令人惊艳的答案。鉴于 SAM,他们提出「修理一切」(Inpaint Anything,简称 IA)模型。区别于传统图象修理模型,IA 模型无需精细化操作生成掩码,支持了一键点击标记选定对象,IA 即可实现移除一切物体(Remove Anything)、弥补一切实质(Fill Anything)、替代一切场景(Replace Anything),涵盖了包括目标移除、目标弥补、配景替代等在内的多种典型图象修理应用场景。
论文链接:http://arxiv.org/abs/2304.06790
代码库链接:https://github.com/geekyutao/Inpaint-Anything
方法介绍
尽管当前图象修理系统取得了重大进展,但它们在选择掩码图和弥补空洞方面仍然面临困难。鉴于 SAM,研究者首次尝试无需掩码(Mask-Free)图象修复,并构建了「点击再弥补」(Clicking and Filling) 的图象修理新范式,他们将其称为修理一切 (Inpaint Anything)(IA)。IA 背后的核心思想是结合不同模型的优势,以建立一个功能强大且用户友好的图象修复系统。
IA 拥有三个主要功能:(i) 移除一切(Remove Anything):用户只需点击一下想要移除的物体,IA 将无痕地移除该物体,实现高效「魔法消除」;(ii) 弥补一切(Fill Anything):同时,用户还可以进一步通过文本提醒(Text Prompt)告诉 IA 想要在物体内弥补什么,IA 随即通过驱动已嵌入的 AIGC(AI-Generated Content)模型(如 Stable Diffusion [2])生成相应的实质弥补物体,实现随心「实质创作」;(iii) 替代一切(Replace Anything):用户也可以通过点击选择需要保留的物体对象,并用文本提醒告诉 IA 想要把物体的配景替代成什么,即可将物体配景替代为指定实质,实现生动「环境转换」。IA 的整体框架如下图所示:
Inpaint Anything(IA)示意图。用户可以通过单击来选择图象中的任何物体。借助强大的视觉模型,如 SAM [1]、LaMa [3] 和 Stable Diffusion (SD) [3],IA 能够平滑移除选定物体(即 Remove Anything)。进一步地,通过向 IA 输入文本提醒,用户可以用任何想要的实质弥补物体(即 Fill Anything)或者任意替代对象的物体(即 Replace Anything)。
移除一切
移除一切(Remove Anything)示意图
「移除一切」步骤如下:
第 1 步:用户点击想要移除的物体;
第 2 步:SAM 将该物体联系出来;
第 3 步:图象修理模型(LaMa)弥补该物体。
弥补一切
弥补一切(Fill Anything)示意图,图中使用的文本提醒:a teddy bear on a bench
「弥补一切」步骤如下:
第 1 步:用户点击想要移除的物体;
第 2 步:SAM 将该物体联系出来;
第 3 步:用户通过文本示意想要弥补的实质;
第 4 步:鉴于文本提醒的图象修理模型(Stable Diffusion)根据用户提供的文本对物体进行弥补。
替代一切
替代一切(Replace Anything)示意图,图中使用的文本提醒:a man in office
「弥补一切」步骤如下:
第 1 步:用户点击想要移除的物体;
第 2 步:SAM 将该物体联系出来;
第 3 步:用户通过文本示意想要替代的配景;
第 4 步:鉴于文本提醒的图象修理模型(Stable Diffusion)根据用户提供的文本对物体的配景进行替代。
模型结果
研究者随后在 COCO 数据集 [4]、LaMa 测试数据集 [3] 和他们自己用手机拍摄的 2K 高清图象上对 Inpaint Anything 进行测试。值得注意的是,研究者的模型还支持 2K 高清图和任意长宽比,这使得 IA 系统在各种集成环境和现有框架中都能够实现高效的迁移应用。
移除一切实验结果
弥补一切实验结果
文本提醒:a camera lens in the hand
文本提醒:an aircraft carrier on the sea
文本提醒:a sports car on a road
文本提醒:a Picasso painting on the wall
替代一切实验结果
文本提醒:sit on the swing
文本提醒:breakfast
文本提醒:a bus, on the center of a country road, summer
文本提醒:crossroad in the city
总结
研究者建立这样一个有趣的项目,来展示充分利用现有大型人工智能模型所能获得的强大能力,并揭示「可组合人工智能」(Composable AI)的无限潜力。项目所提出的 Inpaint Anything (IA) 是一种多功能的图象修理系统,融合了物体移除、实质弥补、场景替代等功能(更多的功能正在路上敬请期待)。
IA 结合了 SAM、图象修理模型(例如 LaMa)和 AIGC 模型(例如 Stable Diffusion)等视觉基础模型,实现了对用户操作友好的无掩码化图象修复,同时支持「点击删除,提醒弥补」的等「傻瓜式」人性化操作。此外,IA 还可以处理具有任意长宽比和 2K 高清分辨率的图象,且不受图象原始实质限制。
目前,项目已经完全开源。最后,欢迎大家分享和推广 Inpaint Anything (IA) ,也很期待看见更多鉴于 IA 所拓展的新项目。未来,研究者将进一步挖掘 Inpaint Anything (IA) 的潜力 以支持更多实用的新功能,如细粒度图象抠图、编辑等,并将其应用到更多现实应用中。
参考文献
[1] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao,Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.
[2] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition, pages 10684–10695, 2022.
[3] Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, and Victor Lempitsky. Resolution-robust large mask inpainting with fourier convolutions. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 2149–2159, 2022.
[4] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference,
Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pages 740–755. Springer, 2014.
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/30463