只需150k数据，多图融合效果超越Qwen-2509，至多支持10图输入！

背景随着图像生成模型的迅速发展，越来越多的condition被加入到生成过程中，开源模型和闭源模型的差距也不断缩小。然而有一种condition却是最难也最综合的：直接输入多张图像，让模型同时整合来自多张图像的语义信息。例如结合人物、场景、物体等多种视觉输入，生成ID一致性好又语义丰富的合成结果。

背景

随着图像生成模型的迅速发展，越来越多的condition被加入到生成过程中，开源模型和闭源模型的差距也不断缩小。

然而有一种condition却是最难也最综合的：直接输入多张图像，让模型同时整合来自多张图像的语义信息。例如结合人物、场景、物体等多种视觉输入，生成ID一致性好又语义丰富的合成结果。

Nano-Banana、GPT-Images在这个任务上表现很好，但开源模型却存在非常大的gap，部分是因为这一领域缺乏高质量的开源数据集。

只需150k数据，多图融合效果超越Qwen-2509，至多支持10图输入！

现有的多图融合数据构造流程

1: 原始图像/视频frame

2: 分割前景物体

3: 视频中同一主体的另一个frame

4: 对分割出的前景物体进行增广

近年来多图融合（Multi-Image Composition, MICo）方法不断发展，但现有数据构造流程仍然高度依赖传统范式，导致模型在真实复杂场景中的泛化能力受到明显制约。

一、目标分割质量受限：语义不完整、边界含糊

当前主流方法通常从高质量图片或视频帧中出发，借助 开放词汇检测器（OVD）和 SAM对目标进行自动分割，以获取可复用的源图像。然而，这一过程往往存在两个关键问题：

•分割结果不完整：遮挡区域、细节结构容易丢失

•语义边界模糊：模型难以准确区分“主体的一部分”与“附属物”

二、生成式增强路径单一：风格雷同、多样性不足

为了扩充数据规模，一些方法会进一步利用 S2I（Subject-to-Image）或 inpainting 模型对目标进行生成式增强。然而，由于这些增强过程高度依赖少量固定生成模型，往往带来新的问题：

•生成结果在 风格、构图和纹理上高度相似

•场景与姿态变化有限，缺乏真实世界的复杂性

三、视频帧扩展受限：场景单一、想象空间不足

另一条常见路径是从视频中检索同一主体的更多帧作为补充来源。然而现实中可用的视频素材往往集中于：

•少量高质量视频

•相对固定的拍摄环境与背景

总结来看

现有多图融合数据集的构造方式，本质上受限于分割不充分、生成同质化、场景来源单一这三重问题。

即便通过多条路径（2→1、2→3、4→1、4→3）构造训练对，数据在语义完整性、多样性和想象空间上仍然存在明显短板。

MICo-150K：高质量、全面且开源的数据集

为突破多图融合（Multi-Image Composition, MICo）任务长期受限于数据质量与多样性的瓶颈，MICo-150K 构建了一条从高质量真实数据出发、以组合驱动生成、并通过多重自动验证闭环保证质量的数据构造流程，构建了MICo-150k数据集：

•包含 超过 150,000 个高质量组合样本

•定义了 7 种子任务和 27 个细粒度组合类型

•同时提供了最鲁棒、最综合的真实世界 Decomposition & Recomposition（De&Re）子集

•每个组合样本配有精致的 prompt 和视觉内容标签

只需150k数据，多图融合效果超越Qwen-2509，至多支持10图输入！

图（a）为普通任务数据合成流程，图（b）为De&Re子集数据合成流程

“Composed-by-Retrieval” 组合策略

针对每一个多图融合任务，系统会从Human、Object、Cloth、Scene四类素材池中随机且多样化地采样多张源图像，并提供多种组合作为候选，基于这些candidate的 caption，通过 GPT-4o自动选择一个语义合适的多图组合 prompt。这种 “Composed-by-Retrieval”策略确保了“组合关系来自真实图像语义，而非凭空想象”。

De&Re真实世界子集

我们收集了高质量人像写真，并使用nano-banana将图中的人物、衣物、场景等信息decompose出来，经过人工质量验证后，再recompose回去，构成最接近真实世界分布的De&Re（DeCompose and ReCompose）子集

自动化质量验证

为避免常见的语义缺失与身份漂移问题，MICo-150K 在生成后引入了严格的自动验证机制：

•QwenVL2.5-72B：验证生成图像是否准确覆盖并反映了所有源图像的语义要素

•ArcFace：对涉及人物的样本进行身份一致性检测

与现存数据集相比，MICo-150K 不仅规模大，而且质量高、语义一致性强，为模型学习更复杂的空间和语义结构提供了理想基础。

只需150k数据，多图融合效果超越Qwen-2509，至多支持10图输入！