AI在线 AI在线

​小红书联合复旦开源 InstanceAssemble:实现 AI 图像精准排版控制

近日,小红书与复旦大学联合发布了在布局控制生成(Layout-to-Image)领域的最新研究成果——InstanceAssemble。 这项技术旨在解决 AI 绘画中长期存在的“构图难”问题,通过创新的机制实现了从简单到复杂场景的精准图像生成。 据悉,相关论文已被人工智能顶级会议 NeurIPS2025收录。

 近日,小红书与复旦大学联合发布了在布局控制生成(Layout-to-Image)领域的最新研究成果——InstanceAssemble。这项技术旨在解决 AI 绘画中长期存在的“构图难”问题,通过创新的机制实现了从简单到复杂场景的精准图像生成。据悉,相关论文已被人工智能顶级会议 NeurIPS2025收录。

image.png

在目前的 AI 绘画领域,虽然“文字生成图像”已趋于成熟,但在“布局控制生成”方面,AI 往往难以精确按照用户给定的空间约束(如边界框或分割掩码)来摆放物体,经常出现位置对齐不准或语义脱节的情况。InstanceAssemble 的出现,标志着 AI 绘画进入了“精准构图”的新阶段。该技术基于主流的扩散变换器架构,核心在于提出了“实例拼装注意力”机制。

用户在使用该工具时,只需提供每个物体的具体位置(边界框)和内容描述,AI 即可在指定区域生成符合要求的图像内容。无论是仅有几个物体的简单画面,还是实例密集的复杂场景,InstanceAssemble 都能保持极高的排版精度和语义一致性。

值得关注的是,InstanceAssemble 采用了轻量级的适配方案。它不需要对整个大模型进行重新训练,仅需极少的额外参数即可适配现有模型。例如,适配 Stable Diffusion3-Medium 仅需约3.46% 的额外参数,而适配 Flux.1模型时,参数占比更是低至0.84%。

为了更好地评估技术性能,研究团队还同步推出了包含9万个实例的“Denselayout”基准测试集及全新的评估指标。目前,InstanceAssemble已在 GitHub 开源,代码和预训练模型均可供开发者下载使用,有望在设计、广告及内容创意行业发挥重要作用。

github:https://github.com/FireRedTeam/InstanceAssemble

划重点:

  • 🎯 精准排版控制:通过“实例拼装注意力”机制,让 AI 能够严格按照用户设定的位置生成物体,支持从稀疏到密集的复杂布局。

  • 极低适配成本:采用轻量化设计,无需重训全模型,仅需不足1% 至4% 的额外参数即可适配 Flux.1或 SD3等主流模型。

  • 🔓 全面开源共享:项目已在 GitHub 开源并提供预训练模型,同时发布了全新的测试基准集 Denselayout 以推动行业评估标准化。

相关资讯

NIPS2025|小红书智创AIGC团队提出布局控制生成新算法InstanceAssemble

NIPS2025|小红书智创AIGC团队提出布局控制生成新算法InstanceAssemble

当下的文本生成图像扩散模型取得了长足进展,为图像生成引入布局控制(Layout-to-Image, L2I)成为可能。 然而,现有布局到图像生成方法在复杂场景下表现仍不理想:一方面,如何精确对齐给定布局并同时保持高画质是巨大挑战;另一方面,在扩散生成的逐步去噪过程中确保每个目标的位置与语义属性不偏离也极为困难。 此外,布局控制往往需要支持多模态条件(如文本、参考图等信息),这进一步增加了技术复杂度。
11/3/2025 4:59:00 PM 机器之心
小红书开源InstanceAssemble!轻量级布局可控生成框架,复杂多实例图像生成精度再突破

小红书开源InstanceAssemble!轻量级布局可控生成框架,复杂多实例图像生成精度再突破

在AIGC从“自由创作”迈向“精准控制”的关键阶段,小红书AIGC团队今日开源其全新布局可控图像生成框架——InstanceAssemble,专为解决高密度、多对象、复杂空间关系的Layout-to-Image任务而设计。 该框架在保持极低参数增量(最低仅0.84%)的前提下,显著提升生成图像的空间对齐精度与语义一致性,为电商、设计、游戏等高要求场景提供工业级解决方案。 级联建模 Assemble-Attention,破解“多物堆叠”难题传统Layout-to-Image模型在面对“10个商品图标 文字标签 背景图层”等复杂布局时,常出现对象错位、重叠或语义错配。
12/26/2025 9:57:05 AM AI在线
NeurIPS 2025 最佳论文揭晓:阿里通义千问靠“门控注意力”摘下中国唯一大奖

NeurIPS 2025 最佳论文揭晓:阿里通义千问靠“门控注意力”摘下中国唯一大奖

全球 AI 顶会 NeurIPS 2025 今晚公布获奖名单,阿里巴巴通义千问团队凭《Attention Gating Makes Better Foundation Models》拿下最佳论文奖,成为 4 篇获奖论文中唯一中国面孔。 本届大会共收稿 2 万篇,录取率仅 25%,竞争强度创历史新高。 论文核心是一把“滑动门”:在标准注意力后加一层可学习的门控,实时决定哪些头、哪些 token 继续参与下游计算。
11/30/2025 2:12:37 PM AI在线