AI在线 AI在线

DiffMoE:动态Token选择助力扩散模型性能飞跃,快手&清华团队打造视觉生成新标杆!

本文由清华大学和快手可灵团队共同完成。 第一作者是清华大学智能视觉实验室在读本科生史明磊。 在生成式 AI 领域,扩散模型(Diffusion Models)已成为图像生成任务的主流架构。

本文由清华大学和快手可灵团队共同完成。第一作者是清华大学智能视觉实验室在读本科生史明磊。

在生成式 AI 领域,扩散模型(Diffusion Models)已成为图像生成任务的主流架构。然而,传统扩散模型在处理不同噪声水平和条件输入时采用统一处理方式,未能充分利用扩散过程的异构特性,导致计算效率低下,近期,可灵团队推出 DiffMoE(Dynamic Token Selection for Scalable Diffusion Transformers),通过创新的动态token选择机制和全局token池设计,拓展了扩散模型的效率与性能边界。

null

  • 论文标题:DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers
  • 项目主页:https://shiml20.github.io/DiffMoE/
  • 论文地址:https://arxiv.org/abs/2503.14487
  • 代码:https://github.com/KwaiVGI/DiffMoE

核心突破:动态token选择与全局上下文感知 

DiffMoE 首次在扩散模型中引入批级全局token池(Batch-level Global Token Pool),打破传统模型对单一样本内token的限制,使专家网络能够跨样本访问全局token分布。这种设计模拟了完整数据集的token分布,显著提升了模型对复杂噪声模式的学习能力。实验表明,DiffMoE 在训练损失收敛速度上超越了同等参数量的密集模型(Dense Models),为多任务处理提供了更强大的上下文感知能力。 

针对推理阶段的计算资源分配问题,DiffMoE 提出动态容量预测器(Capacity Predictor),通过轻量级 MLP 网络实时调整专家网络的计算负载。该机制基于训练时的token路由模式学习,在不同噪声水平和样本复杂度间智能分配资源,实现了性能与计算成本的灵活权衡。例如,在生成困难图片时自动分配更多计算资源,而在处理简单图像时降低负载,真正做到 「按需计算」。 

null

性能提升:以少胜多的参数高效模型

在 ImageNet 256×256 分类条件图像生成基准测试中,其他结构细节保持一致的公平对比情况下,DiffMoE-L-E8 模型仅用 4.58 亿参数 (FID50K 2.13), 超越了拥有 6.75 亿参数的 Dense-DiT-XL 模型(FID 2.19)。通过进一步扩展实验,DiffMoE 实现了仅用 1 倍激活参数就实现了 3 倍于密集模型的性能。此外,DiffMoE 在文本到图像生成任务中同样展现出卓越的泛化能力,相较于 Dense 模型有明显效率提升。

null

null

多维度验证:从理论到实践

研究团队通过大规模实验验证了 DiffMoE 的优越性: 

动态计算优势:DiffMoE 的平均激活参数量较低的情况下实现了性能指标的显著提升,证明了动态资源分配的高效性;同时,DiffMoE 能够根据样本的难度自动分配计算量。本研究可视化了模型认为最困难和最简单的十类生成。

null

模型认为的最困难的十类

null

模型认为的最简单的十类

扩展性测试:从小型(32M)到大型(458M)配置,DiffMoE 均保持性能正向增长,专家数量从 2 扩展到 16 时 FID 持续下降;

null

跨任务适配:在文本到图像生成任务中,DiffMoE 模型在对象生成、空间定位等关键指标上全面超越 Dense 基线模型。 

null

总结

在这项工作中,研究团队通过动态token选择和全局token可访问性来高效扩展扩散模型。我们的方法利用专门的专家行为和动态资源分配,有效解决了扩散 Transformer 中固定计算量处理的局限性问题。大量的实验结果表明,DiffMoE 在性能上超越了现有的 TC-MoE 和 EC-MoE 方法,以及激活参数量是其 3 倍的密集型模型。研究团队不仅验证了它在类别条件生成任务中的实用性,也验证了 DiffMoE 在大规模文本到图像生成任务的有效性。虽然为了进行公平比较,我们未纳入现代混合专家(MoE)模型的改进方法,但在未来的工作中,集成诸如细粒度专家和共享专家等先进技术,将可能带来新的增益。

更多细节请参阅原论文。

相关资讯

港科大提出端侧文生图模型SnapGen,参数仅SD十分之一,1.4秒内生成1024分辨率图像

本文经AIGC Studio公众号授权转载,转载请联系出处。 这项工作提出了一种新颖且高效的 T2I 模型SnapGen,SnapGen 是第一个可以在1.4秒内在移动设备上合成高分辨率图像(1024x1024 ) 的图像生成模型(379M ) ,并在 GenEval 指标上 达到0.66。 该模型全面超越了许多现有的数十亿参数模型,例如 SDXL、Lumina-Next 和 Playgroundv2。
1/21/2025 9:50:00 AM
AIGC Studio

六大维度,LLM「问题生成」首次正面PK人类!伯克利等发布最新研究

长期以来,问题生成(Question Generation)任务都是根据「给定事实」来编写各种相关问题,已经发展出了很多自动化的方法。 大型语言模型(LLM)的兴起,极大提升了各种自然语言处理(NLP)任务的性能,其中也包括问题生成,虽然应用广泛,但还没有研究讨论过「用LLMs生成问题的特点」。 没有额外提示约束时,LLMs是更倾向于生成较长还是较短的问题?
1/24/2025 3:30:00 PM
新智元

美国新法案:禁止进口中国DeepSeek,违规罚1亿美元、监禁

在国内大模型DeepSeek席卷全球致使美国科技股暴跌后,美国参议员Josh Hawley提出《美国AI能力与中国脱钩》法案,以保护美国的AI开发不受中国影响。 Hawley在序言中写道:“流入中国AI的每一美元和每一字节数据,最终都会被用来对付美国。 美国不能在牺牲自身实力的情况下,增强我们最大的对手。
2/5/2025 10:24:04 AM
AIGC开放社区
  • 1