AI在线 AI在线

小红书开源InstanceAssemble!轻量级布局可控生成框架,复杂多实例图像生成精度再突破

在AIGC从“自由创作”迈向“精准控制”的关键阶段,小红书AIGC团队今日开源其全新布局可控图像生成框架——InstanceAssemble,专为解决高密度、多对象、复杂空间关系的Layout-to-Image任务而设计。 该框架在保持极低参数增量(最低仅0.84%)的前提下,显著提升生成图像的空间对齐精度与语义一致性,为电商、设计、游戏等高要求场景提供工业级解决方案。 级联建模 Assemble-Attention,破解“多物堆叠”难题传统Layout-to-Image模型在面对“10个商品图标 文字标签 背景图层”等复杂布局时,常出现对象错位、重叠或语义错配。

在AIGC从“自由创作”迈向“精准控制”的关键阶段,小红书AIGC团队今日开源其全新布局可控图像生成框架——InstanceAssemble,专为解决高密度、多对象、复杂空间关系的Layout-to-Image任务而设计。该框架在保持极低参数增量(最低仅0.84%)的前提下,显著提升生成图像的空间对齐精度与语义一致性,为电商、设计、游戏等高要求场景提供工业级解决方案。

image.png

级联建模 + Assemble-Attention,破解“多物堆叠”难题

传统Layout-to-Image模型在面对“10个商品图标+文字标签+背景图层”等复杂布局时,常出现对象错位、重叠或语义错配。InstanceAssemble创新性采用级联双阶段架构:  

1. 语义理解阶段:解析文本描述与布局指令的语义关联;  

2. 空间组装阶段:通过自研Assemble-Attention机制,动态建模实例间相对位置、遮挡关系与层次结构,确保每个元素“该在哪,就在哪”。

实验显示,在密集商品展示、多角色插画、UI界面生成等场景中,InstanceAssemble的对象定位准确率与边缘清晰度显著优于现有方法。

image.png

极轻量适配,兼容主流底模

为降低部署门槛,框架采用超轻量LoRA适配器:  

- 适配Stable Diffusion3-Medium仅需3.46%额外参数;  

- 适配Flux.1模型更是低至0.84%。  

这意味着用户无需重新训练大模型,即可在保留底模强大生成能力的同时,灵活注入布局控制能力,支持文本+参考图+边界框的多模态指令。

自建DenseLayout基准,推动评估标准化

为精准衡量布局对齐质量,小红书同步发布DenseLayout评测数据集与LGS(Layout Grounding Score)可解释指标。LGS从位置精度、尺度匹配、语义一致性三个维度量化生成效果,解决传统指标(如IoU)在密集场景下失真的问题。

AIbase认为,InstanceAssemble的发布,标志着AIGC正从“画得像”走向“摆得准”。当AI不仅能生成精美图像,还能按设计师的精确布局指令“摆放”每个元素,AIGC才真正具备嵌入专业生产流程的能力。而小红书此次开源,不仅赋能社区创作者,更将推动整个行业向可控、可靠、可商用的生成式AI迈进。

论文链接:https://arxiv.org/abs/2509.16691

项目主页:https://github.com/FireRedTeam/InstanceAssemble

相关资讯

NIPS2025|小红书智创AIGC团队提出布局控制生成新算法InstanceAssemble

NIPS2025|小红书智创AIGC团队提出布局控制生成新算法InstanceAssemble

当下的文本生成图像扩散模型取得了长足进展,为图像生成引入布局控制(Layout-to-Image, L2I)成为可能。 然而,现有布局到图像生成方法在复杂场景下表现仍不理想:一方面,如何精确对齐给定布局并同时保持高画质是巨大挑战;另一方面,在扩散生成的逐步去噪过程中确保每个目标的位置与语义属性不偏离也极为困难。 此外,布局控制往往需要支持多模态条件(如文本、参考图等信息),这进一步增加了技术复杂度。
11/3/2025 4:59:00 PM 机器之心
从AIGC到AGI,为什么我们需要更多的“技术信仰派”?

从AIGC到AGI,为什么我们需要更多的“技术信仰派”?

整理 | 伊风采访 | 张晓楠嘉宾 | 巴川、朱雷、肖然作为AIGC应用落地元年,2024开年就抛给我们一些不太好回答的问题:在以探索AGI为长期目标时,我们该坚守技术信仰吗?除了复制国外GPT-4、Sora这样的成功案例,我们该如何寻求更大发展和突破?即便算力问题得以解决,算法的难题如何跨越?国内企业为什么大都部署多个大模型?为什么并非所有企业都该拥抱AIGC?前不久51CTO全新直播栏目《AIGC实战派》有幸邀请到竞技世界首席数据科学家巴川,元语智能联合创始人兼COO、SuperCLUE社区发起人朱雷以及Tho
4/15/2024 6:38:00 PM 新闻助手
爆肝48小时!学会这8招,让DeepSeek变得超好用!

爆肝48小时!学会这8招,让DeepSeek变得超好用!

更多相关介绍:. 重磅好文! 8个章节带你全方位了解DeepSeek这两天,DeepSeek-R1 火的飞起,在中日美三个 Appstore 榜上登顶。
2/8/2025 12:04:55 AM 解决师Blue