AI在线 AI在线

只需150k数据,多图融合效果超越Qwen-2509,至多支持10图输入!

背景随着图像生成模型的迅速发展,越来越多的condition被加入到生成过程中,开源模型和闭源模型的差距也不断缩小。 然而有一种condition却是最难也最综合的:直接输入多张图像,让模型同时整合来自多张图像的语义信息。 例如结合人物、场景、物体等多种视觉输入,生成ID一致性好又语义丰富的合成结果。

背景

随着图像生成模型的迅速发展,越来越多的condition被加入到生成过程中,开源模型和闭源模型的差距也不断缩小。

然而有一种condition却是最难也最综合的:直接输入多张图像,让模型同时整合来自多张图像的语义信息。例如结合人物、场景、物体等多种视觉输入,生成ID一致性好又语义丰富的合成结果。

Nano-Banana、GPT-Images在这个任务上表现很好,但开源模型却存在非常大的gap,部分是因为这一领域缺乏高质量的开源数据集。

只需150k数据,多图融合效果超越Qwen-2509,至多支持10图输入!

现有的多图融合数据构造流程

1: 原始图像/视频frame

2: 分割前景物体

3: 视频中同一主体的另一个frame

4: 对分割出的前景物体进行增广

近年来多图融合(Multi-Image Composition, MICo)方法不断发展,但现有数据构造流程仍然高度依赖传统范式,导致模型在真实复杂场景中的泛化能力受到明显制约。

一、目标分割质量受限:语义不完整、边界含糊

当前主流方法通常从高质量图片或视频帧中出发,借助 开放词汇检测器(OVD)和 SAM对目标进行自动分割,以获取可复用的源图像。然而,这一过程往往存在两个关键问题:

分割结果不完整:遮挡区域、细节结构容易丢失

语义边界模糊:模型难以准确区分“主体的一部分”与“附属物”

二、生成式增强路径单一:风格雷同、多样性不足

为了扩充数据规模,一些方法会进一步利用 S2I(Subject-to-Image)或 inpainting 模型对目标进行生成式增强。然而,由于这些增强过程高度依赖少量固定生成模型,往往带来新的问题:

•生成结果在 风格、构图和纹理上高度相似

•场景与姿态变化有限,缺乏真实世界的复杂性

三、视频帧扩展受限:场景单一、想象空间不足

另一条常见路径是从视频中检索同一主体的更多帧作为补充来源。然而现实中可用的视频素材往往集中于:

少量高质量视频

相对固定的拍摄环境与背景

总结来看

现有多图融合数据集的构造方式,本质上受限于分割不充分、生成同质化、场景来源单一这三重问题。

即便通过多条路径(2→1、2→3、4→1、4→3)构造训练对,数据在语义完整性、多样性和想象空间上仍然存在明显短板。

MICo-150K:高质量、全面且开源的数据集

为突破多图融合(Multi-Image Composition, MICo)任务长期受限于数据质量与多样性的瓶颈,MICo-150K 构建了一条从高质量真实数据出发、以组合驱动生成、并通过多重自动验证闭环保证质量的数据构造流程,构建了MICo-150k数据集

•包含 超过 150,000 个高质量组合样本

•定义了 7 种子任务和 27 个细粒度组合类型

•同时提供了最鲁棒、最综合的真实世界 Decomposition & Recomposition(De&Re)子集

•每个组合样本配有精致的 prompt 和视觉内容标签

只需150k数据,多图融合效果超越Qwen-2509,至多支持10图输入!

图(a)为普通任务数据合成流程,图(b)为De&Re子集数据合成流程

“Composed-by-Retrieval” 组合策略

针对每一个多图融合任务,系统会从Human、Object、Cloth、Scene四类素材池中随机且多样化地采样多张源图像,并提供多种组合作为候选,基于这些candidate的 caption,通过 GPT-4o自动选择一个语义合适的多图组合 prompt。这种 “Composed-by-Retrieval”策略确保了“组合关系来自真实图像语义,而非凭空想象”。

De&Re真实世界子集

我们收集了高质量人像写真,并使用nano-banana将图中的人物、衣物、场景等信息decompose出来,经过人工质量验证后,再recompose回去,构成最接近真实世界分布的De&Re(DeCompose and ReCompose)子集

自动化质量验证

为避免常见的语义缺失与身份漂移问题,MICo-150K 在生成后引入了严格的自动验证机制

QwenVL2.5-72B:验证生成图像是否准确覆盖并反映了所有源图像的语义要素

ArcFace:对涉及人物的样本进行身份一致性检测

与现存数据集相比,MICo-150K 不仅规模大,而且质量高、语义一致性强,为模型学习更复杂的空间和语义结构提供了理想基础。

只需150k数据,多图融合效果超越Qwen-2509,至多支持10图输入!

MICo-150k四个task的case例子

充分的实验表明,BLIP-3o、BAGEL、Qwen-Image、Lumina-DiMMO、OmniGen2等不同架构、不同初始能力的模型,在MICo-150k训练之后都取得了极大进步,证明了数据集的稳健性。

只需150k数据,多图融合效果超越Qwen-2509,至多支持10图输入!

左侧“Source Images”为label;右侧第一行为训练前模型输出,第二行为训练后模型输出

Qwen-MICo:训练于 MICo-150K 的新一代 MICo 模型

基于 MICo-150K,我们以Qwen- Image为base训练了Qwen-MICo 模型,将其作为 MICo 任务的baseline model:

只用 MICo-150K 训练,无需额外大规模混合预训练✨ 在三图像合成任务上超越了 Qwen-Image-2509(训练数据量远超150K)✨ 同时支持任意数量图像的输入组合(相比之下,Qwen-2509 仅支持最多 3 张图像输入)

只需150k数据,多图融合效果超越Qwen-2509,至多支持10图输入!

只需150k数据,多图融合效果超越Qwen-2509,至多支持10图输入!

只需150k数据,多图融合效果超越Qwen-2509,至多支持10图输入!

强化研究评估与开放生态

除了数据集和模型之外,论文还推出了:

MICo-Bench 基准套件

•每个 MICo 子任务含 100 个测试实例

•加入 300 个 De&Re 真实世界挑战案例

用以更加全面评估 MICo 性能

Weighted-Ref-VIEScore 指标

•一个针对 MICo 任务定制的性能评估指标

•更贴合人类视觉语义一致性判断

只需150k数据,多图融合效果超越Qwen-2509,至多支持10图输入!

和传统评估方式相比,我们为每一个case提供了一个参考融合结果,避免evaluator的跨图注意力机制失效而导致评估错误

一些insights!

我们发现:

•BAGEL、Qwen-Image、BLIP-3o等模型本身并没有在多图融合任务上训练过,但是将多张图片token concat到一起直接输入,模型本身涌现出一定的多图融合能力!!!

项目主页:https://mico-150k.github.io/

GitHub:https://github.com/A113N-W3I/MICo-150K

Online Demo:https://huggingface.co/spaces/kr-cen/Qwen-Image-MICo

Arxiv链接:https://arxiv.org/abs/2512.07348

相关资讯

PVUW视频分割Workshop@CVPR 2025 | 征稿!比赛!

PVUW视频分割Workshop@CVPR 2025 | 征稿!比赛!

第四届真实世界下的像素级视频理解挑战赛(The 4th PVUW challenge)主页/Call for Paper::复杂场景视频目标分割挑战赛(MOSE Challenge):参赛、数据集下载::基于动作描述的指向性视频分割挑战赛(MeViS Challenge):参赛、数据集下载: 真实世界下的像素级视频理解(Pixel-level Video Understanding in the Wild, PVUW)挑战赛将于 CVPR 2025 期间在美国田纳西州纳什维尔的 Music City Center 举办。 像素级场景理解是计算机视觉中的核心问题之一,旨在识别图像中每个像素的类别、掩码和语义。 然而,现实世界是动态的,基于视频的,而非静态的图像状态,因此学习进行视频分割对于实际应用来说更为合理和实用。
3/3/2025 4:37:00 PM 新闻助手
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

近年来,生成式人工智能(AIGC)引发广泛关注。 Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频,广受用户喜爱。 然而,这些模型在处理复杂的提示词时仍存在不足。
11/6/2024 1:30:00 PM 新智元
DeepMind悄悄发布PaliGemma二代,最易微调「视觉语言全能王」来了,多项任务登顶SOTA

DeepMind悄悄发布PaliGemma二代,最易微调「视觉语言全能王」来了,多项任务登顶SOTA

OpenAI的发布会仿佛连续剧,让人眼花缭乱,谷歌也悄悄发布了PaliGemma 2模型,迈向可调视觉语言模型的下一代。 今年5月,谷歌发布PaliGemma,也是Gemma家族中的第一个视觉语言模型,致力于模型民主化,降低视觉模型的使用难度。 PaliGemma 2模型以更高性能的Gemma 2为基座,增加了视觉能力,微调起来更容易,性能也更好。
12/11/2024 1:50:00 PM 新智元