AI在线 AI在线

CVPR 2025 | 字节提出个性化多人图像生成新方法ID-Patch,可生成多人合影、姿势可控

相信扩散模型(DMs)大家一定都不陌生了,目前已经成为文本生成图像的核心方法,凭借强大的图像生成能力,正重塑艺术创作、广告设计、社交媒体内容生产格局。 现在,用一段文字生成个性化头像都不算啥新鲜事儿了。 不过仍然会有这样一个问题,目前我们看到的基于人物的文生图大多还是生成一个人的,对于多人同时生成的目前还没有很好的样例。

相信扩散模型(DMs)大家一定都不陌生了,目前已经成为文本生成图像的核心方法,凭借强大的图像生成能力,正重塑艺术创作、广告设计、社交媒体内容生产格局。现在,用一段文字生成个性化头像都不算啥新鲜事儿了。

不过仍然会有这样一个问题,目前我们看到的基于人物的文生图大多还是生成一个人的,对于多人同时生成的目前还没有很好的样例。然而这些场景又会经常出现在我们的生活中,举个例子:

  • 朋友缺席聚会,能不能“补全”一张全员到齐的合影?
  • 广告里,能不能自由搭配多位虚拟角色,讲个精彩的多人物故事?

目前对于个性化多人图像生成仍然面临很大的技术挑战。比如最大的难点就是身份特征泄露,明明是两个人,结果生成的面容却“融合”在一起,让人傻傻分不清。而且,用户还希望能精准指定每个人的位置和动作,让构图更自然、互动更有趣。一旦位置出错,可能生成的图像就惨不忍睹了!

图片

今天给大家介绍的由字节跳动和密歇根州立大学提出的个性化多身份图像生成方法ID-Patch,对于身份泄露、ID一致保持,模型推理速度等都给我们带来了一些惊喜。下面展示的结果为该方法与最先进的多身份生成方法的比较:

图片从左到右:条件输入,OMG(InstantID)、InstantFamily 和 ID-Patch。OMG 未能保留中间人的发型,并为右边女性的手部创建了伪影。InstantFamily 存在 ID 泄露问题,导致中间人 ID 不正确。ID-Patch保留了每个人的详细身份信息。此外,ID-Patch 比 OMG 快 7 倍,并且计算开销比 InstantFamily 更少。

效果展示

使用 ID-Patch 生成任意姿势图像使用 ID-Patch 生成任意姿势图像即插即用:Canny Edge即插即用:Canny Edge姿势条件生成

姿势条件生成

相关链接

  • 论文:https://arxiv.org/abs/2411.13632
  • 主页:https://byteaigc.github.io/ID-Patch/
  • 模型:https://huggingface.co/ByteDance/ID-Patch
  • 试用:https://huggingface.co/spaces/ByteDance/ID-Patch-SDXL

论文介绍

图片

综合个性化的小组照片并指定每个身份的位置的能力具有巨大的创造潜力。尽管这种图像在视觉上具有吸引力,但它对现有技术提出了重大挑战。一个持续的问题是身份(ID)泄漏,其中注入的面部特征彼此干扰,导致较低的面部相似,定位不正确和视觉伪像。现有方法受到限制,例如依赖分割模型,增加运行时或ID泄漏的可能性很高。

为了应对这些挑战,论文提出了ID-PATCH,这是一种新颖的方法,可以在身份和2D位置之间提供牢固的关联。该方法从相同的面部特征生成一个ID补丁和ID嵌入:ID补丁位于条件图像上以进行精确的空间控制,而ID嵌入与文本嵌入式集成以确保高相似。实验结果表明,ID-PATCH超过了跨指标的基线方法,例如面部ID相似,ID位置关联的准确性和生成效率。

方法概述

图片ID-Patch管道。给定文本提示(例如,两个人握手),n个脸部图像和位置,我们与n ID。我们为每个ID提取面部功能,然后将其投影到ID补丁和ID嵌入中。 ID补丁在黑色上渲染 帆布(或添加在姿势图像的顶部)根据面部位置并发送到控制网中以控制生成的位置 面孔。 ID嵌入插件被附加到文本嵌入中,以通过扩散模型提供详细的面部信息,并通过 跨注意。

ID嵌入的有效性。没有ID嵌入,可以区分两个人,但相似之处很低。合并ID嵌入可显着改善
脸相似

ID嵌入的有效性。没有ID嵌入,可以区分两个人,但相似之处很低。合并ID嵌入可显着改善 脸相似

ID-PATCH结合姿势条件。提供
(a)中的用户ID映像,我们的方法只能生成结果
鼻尖位置的规格如(b)所示。合并
带有姿势图像的ID补丁(C)增强了对
产生的结果如(d)所示,没有产生任何计算开销。

ID-PATCH结合姿势条件。提供 (a)中的用户ID映像,我们的方法只能生成结果 鼻尖位置的规格如(b)所示。合并 带有姿势图像的ID补丁(C)增强了对 产生的结果如(d)所示,没有产生任何计算开销。

两阶段训练以提高定位鲁棒性。
给定(a)中的姿势和ID条件,单级训练不能
完全防止面部定位问题不正确。例如,在
(b)这个人被错误地放在中央底部的位置,
产生不可分割的结果。 (c)引入了两个阶段训练以解决此问题。从第一行可以看出
图,与这些方法相比
来自单阶段训练。我们的实验结果证明了这一点
解决ID泄漏问题至关重要。

两阶段训练以提高定位鲁棒性。 给定(a)中的姿势和ID条件,单级训练不能 完全防止面部定位问题不正确。例如,在 (b)这个人被错误地放在中央底部的位置, 产生不可分割的结果。 (c)引入了两个阶段训练以解决此问题。从第一行可以看出 图,与这些方法相比 来自单阶段训练。我们的实验结果证明了这一点 解决ID泄漏问题至关重要。

实验结果

与姿势条件生成基线的比较,红色虚线盒突出显示了具有低身份的实例
相似。在第1行中,OMG无法保留第三个女人的脸部形状(从左到右),因为它的第一阶段导致冲突
带有此ID的脸部形状。由于第三名女性的ID泄漏,瞬间家庭会产生第二个人。在第2行,
OMG不会为红色盒子中的两个人生成正确的发型和准确的面部特征,而瞬时生成
红色框中的错误ID。
相似。在第1行中,OMG无法保留第三个女人的脸部形状(从左到右),因为它的第一阶段导致冲突
带有此ID的脸部形状。由于第三名女性的ID泄漏,瞬间家庭会产生第二个人。在第2行,
OMG不会为红色盒子中的两个人生成正确的发型和准确的面部特征,而瞬时生成
红色框中的错误ID。与姿势条件生成基线的 相似。在第1行中,OMG无法保留第三个女人的脸部形状(从左到右),因为它的第一阶段导致冲突 带有此ID的脸部形状。由于第三名女性的ID泄漏,瞬间家庭会产生第二个人。在第2行, OMG不会为红色盒子中的两个人生成正确的发型和准确的面部特征,而瞬时生成 红色框中的错误ID。与姿势条件生成基线的比较,红色虚线盒突出显示了具有低身份的实例 相似。在第1行中,OMG无法保留第三个女人的脸部形状(从左到右),因为它的第一阶段导致冲突 带有此ID的脸部形状。由于第三名女性的ID泄漏,瞬间家庭会产生第二个人。在第2行, OMG不会为红色盒子中的两个人生成正确的发型和准确的面部特征,而瞬时生成 红色框中的错误ID。

更多结果

图片图片图片

结论

ID-PATCH显着增强了身份相似之处和位置生成。通过将每个身份功能嵌入独特的补丁并利用ControlNet准确地放置在指定的空间位置,有效的减少了ID泄漏。该方法与其他条件信号(例如姿势)无缝集成 控制。

ID-PATCH这项工作为未来铺平了道路 多ID图像生成中的探索。潜在的未来研究方向包括利用多个图像 来自不同角度的同一个人的进一步增强身份相似和同时控制 使用补丁技术的位置和面部表情。

相关资讯

Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品

一个新框架,让Qwen版o1成绩暴涨:在博士级别的科学问答、数学、代码能力的11项评测中,能力显著提升,拿下10个第一! 这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。 项目团队成员发现,o1和o1类模型在推理过程中表现突出,但却存在“知识不足”的明显缺陷——推理步骤太长/模型知识不足时,推理过程就很容易卡壳,导致推理链中的错误传递。
1/20/2025 9:05:00 AM
量子位

推理模型规划任务成功率从5%到95%,DeepMind遗传算法新研究火了

瞄准推理时扩展(Inference-time scaling),DeepMind新的进化搜索策略火了! 所提出的“Mind Evolution”(思维进化),能够优化大语言模型(LLMs)在规划和推理中的响应。 由于提升显著,Reddit/𝕏一时间出现了大量讨论:由于结合了遗传算法,使用Mind Evolution能让Gemini 1.5 Flash任务成功率从原本的5%左右,一下提升90个百分点。
1/23/2025 4:25:23 PM
量子位

360联合北大震撼发布!5%参数量逼近Deepseek-R1满血性能

2025年2月24日,由360与北京大学联合研发的中等量级推理模型Tiny-R1-32B-Preview正式亮相,仅以5%参数,逼近DeepSeek-R1-671B的性能。 核心突破:小模型,大能量数学领域:以78.1分(AIME 2024评测)逼近原版R1模型(79.8分),远超DeepSeek-R1-Distill-Llama-70B(70.0分);综合性能:在编程(LiveCodeBench 61.6分)、科学(GPQA-Diamond 65.0分)领域全面领先最佳开源70B模型DeepSeek-R1-Distill-Llama-70B;效率跃迁:仅需5%参数量,性能达原版R1的95%以上,推理成本大幅降低。 技术革新:领域专精 模型融合研究团队使用「分治-融合」策略:基于DeepSeek-R1生成海量领域数据,分别训练数学、编程、科学三大垂直模型;通过Arcee团队Mergekit工具智能融合,突破单一模型性能上限,实现多任务均衡优化。
2/25/2025 2:50:16 PM
新智元
  • 1