AI在线 AI在线

字节提出从单一主题发展到多主题定制的通用框架UNO,通过情境生成释放更多可控性

字节跳动的智能创作团队提出了一个从单一主题发展到多主题定制的通用框架UNO,从少到多的泛化:通过情境生成释放更多可控性。 能够将不同的任务统一在一个模型下。 在单主题和多主题驱动的生成中都能实现高度一致性,同时确保可控性。

字节跳动的智能创作团队提出了一个从单一主题发展到多主题定制的通用框架UNO,从少到多的泛化:通过情境生成释放更多可控性。能够将不同的任务统一在一个模型下。在单主题和多主题驱动的生成中都能实现高度一致性,同时确保可控性。

举一个例子:上传一张人物,一身衣服,一个包,UNO就可以生成这个人穿着衣服拿着包的效果图,效果看起来很真实!

图片

图片

图片

相关链接

  • 论文:https://arxiv.org/abs/2504.02160
  • 主页:https://bytedance.github.io/UNO/
  • 代码:https://github.com/bytedance/UNO
  • ComfyUI:https://github.com/jax-explorer/ComfyUI-UNO
  • 试用:https://huggingface.co/spaces/bytedance-research/UNO-FLUX

论文介绍

UNO从少到多的泛化:通过上下文生成释放更多可控性

UNO从少到多的泛化:通过上下文生成释放更多可控性

尽管由于其广泛的应用,主题驱动生成已在图像生成中得到广泛探索,但它在数据可扩展性和主题扩展性方面仍然存在挑战。对于第一个挑战,从策划单主题数据集转向多主题数据集并对其进行扩展尤其困难。对于第二个挑战,大多数最新方法都集中在单主题生成上,这在处理多主题场景时很难应用。在本研究中,我们提出了一种高度一致的数据合成流程来应对这一挑战。该流程利用扩散变压器固有的上下文生成功能,生成高一致性的多主题配对数据。此外,我们引入了UNO,它由渐进式跨模态对齐和通用旋转位置嵌入组成。它是一个由文本到图像模型迭代训练而成的多图像条件主题到图像模型。大量实验表明,我们的方法可以在确保单主题和多主题驱动生成的可控性的同时实现高度的一致性。图片

它是如何工作的?

图片它为模型引入了两项关键增强功能:渐进式跨模态对齐和通用旋转位置嵌入(UnoPE)。渐进式跨模态对齐分为两个阶段。在第一阶段,我们使用单主体上下文生成的数据将预训练的T2I模型微调为S2I模型。在第二阶段,我们继续使用生成的多主体数据对进行训练。UnoPE可以有效地使UNO具备在缩放视觉主体控件时缓解属性混淆问题的能力。

泛化能力

图片

与最先进的方法的比较

图片图片图片

应用场景

图片

结论

本文提出了一种通用定制架构 UNO,它能够解锁扩散变换器 (Diffusion Transformer) 的多条件上下文能力。这是通过渐进式跨模态对齐和通用旋转位置嵌入实现的。UNO 的训练分为两个步骤。第一步使用单幅图像输入来激发扩散变换器中的主体到图像能力。下一步是对多主体数据对进行进一步训练。我们提出的通用旋转位置嵌入也能显著提高主体相似度。此外还提出了一种渐进式合成流程,该流程从单主体生成演进到多主体上下文生成。该流程能够生成高质量的合成数据,有效减少复制粘贴现象。大量实验表明,UNO 在单主体和多主体定制中均实现了高质量的相似度和可控性。

相关资讯

Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强

过去几年,Transformer虽稳坐AI架构「铁王座」,但其二次方复杂度带来的算力消耗和长序列处理瓶颈,限制了大模型在推理阶段处理长文本。 Mamba凭借「线性复杂度」异军突起,非常适合长序列任务,有望成为Transformer架构的替代品,但在处理全局关系上偏弱。 Mamba Transformer混合架构可以将二者的优势互补,实现「效率」和「性能」的双丰收。
4/21/2025 9:07:00 AM
新智元

模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了

大型语言模型(LLMs)在广泛的自然语言处理(NLP)任务中展现出了卓越的能力。 然而,它们迅速增长的规模给高效部署和推理带来了巨大障碍,特别是在计算或内存资源有限的环境中。 例如,Llama-3.1-405B 在 BFloat16(16-bit Brain Float)格式下拥有 4050 亿个参数,需要大约 810GB 的内存进行完整推理,超过了典型高端 GPU 服务器(例如,DGX A100/H100,配备 8 个 80GB GPU)的能力。
4/29/2025 9:14:00 AM
机器之心

ICML 2025 Spotlight|华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍

Mixture-of-Experts(MoE)在推理时仅激活每个 token 所需的一小部分专家,凭借其稀疏激活的特点,已成为当前 LLM 中的主流架构。 然而,MoE 虽然显著降低了推理时的计算量,但整体参数规模依然大于同等性能的 Dense 模型,因此在显存资源极为受限的端侧部署场景中,仍然面临较大挑战。 现有的主流解决方案是专家卸载(Expert Offloading),即将专家模块存储在下层存储设备(如 CPU 内存甚至磁盘)中,在推理时按需加载激活的专家到显存进行计算。
5/7/2025 1:49:19 PM
机器之心
  • 1