背景
随着图像生成模型的迅速发展,越来越多的condition被加入到生成过程中,开源模型和闭源模型的差距也不断缩小。
然而有一种condition却是最难也最综合的:直接输入多张图像,让模型同时整合来自多张图像的语义信息。例如结合人物、场景、物体等多种视觉输入,生成ID一致性好又语义丰富的合成结果。
Nano-Banana、GPT-Images在这个任务上表现很好,但开源模型却存在非常大的gap,部分是因为这一领域缺乏高质量的开源数据集。

现有的多图融合数据构造流程
1: 原始图像/视频frame
2: 分割前景物体
3: 视频中同一主体的另一个frame
4: 对分割出的前景物体进行增广
近年来多图融合(Multi-Image Composition, MICo)方法不断发展,但现有数据构造流程仍然高度依赖传统范式,导致模型在真实复杂场景中的泛化能力受到明显制约。
一、目标分割质量受限:语义不完整、边界含糊
当前主流方法通常从高质量图片或视频帧中出发,借助 开放词汇检测器(OVD)和 SAM对目标进行自动分割,以获取可复用的源图像。然而,这一过程往往存在两个关键问题:
•分割结果不完整:遮挡区域、细节结构容易丢失
•语义边界模糊:模型难以准确区分“主体的一部分”与“附属物”
二、生成式增强路径单一:风格雷同、多样性不足
为了扩充数据规模,一些方法会进一步利用 S2I(Subject-to-Image)或 inpainting 模型对目标进行生成式增强。然而,由于这些增强过程高度依赖少量固定生成模型,往往带来新的问题:
•生成结果在 风格、构图和纹理上高度相似
•场景与姿态变化有限,缺乏真实世界的复杂性
三、视频帧扩展受限:场景单一、想象空间不足
另一条常见路径是从视频中检索同一主体的更多帧作为补充来源。然而现实中可用的视频素材往往集中于:
•少量高质量视频
•相对固定的拍摄环境与背景
总结来看
现有多图融合数据集的构造方式,本质上受限于分割不充分、生成同质化、场景来源单一这三重问题。
即便通过多条路径(2→1、2→3、4→1、4→3)构造训练对,数据在语义完整性、多样性和想象空间上仍然存在明显短板。
MICo-150K:高质量、全面且开源的数据集
为突破多图融合(Multi-Image Composition, MICo)任务长期受限于数据质量与多样性的瓶颈,MICo-150K 构建了一条从高质量真实数据出发、以组合驱动生成、并通过多重自动验证闭环保证质量的数据构造流程,构建了MICo-150k数据集:
•包含 超过 150,000 个高质量组合样本
•定义了 7 种子任务和 27 个细粒度组合类型
•同时提供了最鲁棒、最综合的真实世界 Decomposition & Recomposition(De&Re)子集
•每个组合样本配有精致的 prompt 和视觉内容标签

图(a)为普通任务数据合成流程,图(b)为De&Re子集数据合成流程
“Composed-by-Retrieval” 组合策略
针对每一个多图融合任务,系统会从Human、Object、Cloth、Scene四类素材池中随机且多样化地采样多张源图像,并提供多种组合作为候选,基于这些candidate的 caption,通过 GPT-4o自动选择一个语义合适的多图组合 prompt。这种 “Composed-by-Retrieval”策略确保了“组合关系来自真实图像语义,而非凭空想象”。
De&Re真实世界子集
我们收集了高质量人像写真,并使用nano-banana将图中的人物、衣物、场景等信息decompose出来,经过人工质量验证后,再recompose回去,构成最接近真实世界分布的De&Re(DeCompose and ReCompose)子集
自动化质量验证
为避免常见的语义缺失与身份漂移问题,MICo-150K 在生成后引入了严格的自动验证机制:
•QwenVL2.5-72B:验证生成图像是否准确覆盖并反映了所有源图像的语义要素
•ArcFace:对涉及人物的样本进行身份一致性检测
与现存数据集相比,MICo-150K 不仅规模大,而且质量高、语义一致性强,为模型学习更复杂的空间和语义结构提供了理想基础。

MICo-150k四个task的case例子
充分的实验表明,BLIP-3o、BAGEL、Qwen-Image、Lumina-DiMMO、OmniGen2等不同架构、不同初始能力的模型,在MICo-150k训练之后都取得了极大进步,证明了数据集的稳健性。

左侧“Source Images”为label;右侧第一行为训练前模型输出,第二行为训练后模型输出
Qwen-MICo:训练于 MICo-150K 的新一代 MICo 模型
基于 MICo-150K,我们以Qwen- Image为base训练了Qwen-MICo 模型,将其作为 MICo 任务的baseline model:
✨ 只用 MICo-150K 训练,无需额外大规模混合预训练✨ 在三图像合成任务上超越了 Qwen-Image-2509(训练数据量远超150K)✨ 同时支持任意数量图像的输入组合(相比之下,Qwen-2509 仅支持最多 3 张图像输入)



强化研究评估与开放生态
除了数据集和模型之外,论文还推出了:
MICo-Bench 基准套件
•每个 MICo 子任务含 100 个测试实例
•加入 300 个 De&Re 真实世界挑战案例
用以更加全面评估 MICo 性能
Weighted-Ref-VIEScore 指标
•一个针对 MICo 任务定制的性能评估指标
•更贴合人类视觉语义一致性判断

和传统评估方式相比,我们为每一个case提供了一个参考融合结果,避免evaluator的跨图注意力机制失效而导致评估错误
一些insights!
我们发现:
•BAGEL、Qwen-Image、BLIP-3o等模型本身并没有在多图融合任务上训练过,但是将多张图片token concat到一起直接输入,模型本身涌现出一定的多图融合能力!!!
项目主页:https://mico-150k.github.io/
GitHub:https://github.com/A113N-W3I/MICo-150K
Online Demo:https://huggingface.co/spaces/kr-cen/Qwen-Image-MICo
Arxiv链接:https://arxiv.org/abs/2512.07348