AI在线 AI在线

Luma AI 开源的图像预训练技术IMM实现图像生成十倍提速

你们有没有觉得,辛辛苦苦用海量数据喂养出来的图像模型,在生成高质量图片时,总像蜗牛爬树般慢吞吞?别急,Luma AI 最近开源了一项名为 Inductive Moment Matching (IMM) 的图像模型预训练技术,据说能让模型以前所未有的“闪电”速度生成高质量图像,简直是炼丹炉里的涡轮增压!算法停滞?Luma AI 怒砸“天花板”近年来,AI 社区普遍感受到,生成式预训练似乎遇到了瓶颈。 尽管数据量持续攀升,但算法创新却相对停滞。 Luma AI 认为,这并非数据不够,而是算法没能充分挖掘数据的潜力,这如同手握金矿却只会用锄头挖土,效率实在堪忧。

你们有没有觉得,辛辛苦苦用海量数据喂养出来的图像模型,在生成高质量图片时,总像蜗牛爬树般慢吞吞?别急,Luma AI 最近开源了一项名为 Inductive Moment Matching (IMM) 的图像模型预训练技术,据说能让模型以前所未有的“闪电”速度生成高质量图像,简直是炼丹炉里的涡轮增压!

算法停滞?Luma AI 怒砸“天花板”

近年来,AI 社区普遍感受到,生成式预训练似乎遇到了瓶颈。尽管数据量持续攀升,但算法创新却相对停滞。Luma AI 认为,这并非数据不够,而是算法没能充分挖掘数据的潜力,这如同手握金矿却只会用锄头挖土,效率实在堪忧。

为了打破这个“算法天花板”,Luma AI 将目光投向了高效的推理时计算扩展。他们认为,与其在模型容量上“内卷”,不如想想如何在推理阶段提速。于是,IMM 这位“速度型选手”应运而生!

QQ_1741763781543.png

IMM:让推理“灵活跳跃”

那么,IMM 这项技术究竟有何独到之处,能实现如此惊人的提速呢?

关键在于它从推理效率的角度反向设计预训练算法。传统的扩散模型,就像精雕细琢的艺术家,需要一步一个脚印地进行精细的调整,即使模型再强大,也需要大量的步骤才能得到最佳结果。而 IMM 则不同,它好比一个拥有“瞬间移动”技能的画师,在推理过程中,网络不仅关注当前的时间步,还会考虑“目标时间步”

你可以想象一下,传统的扩散模型在生成图像时,就像在迷宫里一步步摸索前进。而 IMM 呢?它直接看到了迷宫的出口,能够更灵活地“跳跃”过去,大大减少了所需的步骤。这种巧妙的设计,让每一次迭代都更具表达能力,不再被线性插值所限制。

更令人称赞的是,IMM 还引入了最大平均差异 (maximum mean discrepancy) 这种成熟的矩匹配技术,这就像给“跳跃”增加了一个精准的导航系统,确保模型能够准确地朝着高质量的目标前进。

十倍提速,质量更上一层楼!

实践是检验真理的唯一标准。Luma AI 用一系列实验证明了 IMM 的强大实力:

  • ImageNet256x256 数据集上,IMM 仅用 30倍更少的采样步骤,就达到了 1.99的 FID 分数,超越了扩散模型 (2.27FID) 和 Flow Matching (2.15FID)。这简直是“嗖”的一下就完成了任务,质量还更高!
  • 在标准的 CIFAR-10 数据集上,IMM 更是在仅用2步采样的情况下,取得了 1.98的 FID 分数,达到了该数据集上的最佳水平。两步!你没听错,就是眨眼的功夫!

除了速度快,IMM 在训练稳定性方面也表现出色。相比之下,Consistency Models 在预训练时容易出现不稳定的情况,需要特殊的超参数设计. 而 IMM 则更加“省心”,能够在各种超参数和模型架构下稳定训练。

值得注意的是,IMM 并没有依赖于扩散模型所依赖的去噪分数匹配或基于分数的随机微分方程。Luma AI 认为,真正的突破不仅仅在于矩匹配本身,更在于他们以推理为先的视角。这种思路让他们能够发现现有预训练范式的局限性,并设计出能够突破这些限制的创新算法.

Luma AI 对 IMM 的未来充满信心,他们相信这仅仅是一个开始,预示着迈向超越现有界限的多模态基础模型的新范式。他们希望能够彻底释放创造性智能的潜力。

GitHub 仓库 :https://github.com/lumalabs/imm

相关资讯

Luma开源图像模型预训练技术IMM 采样效率提高10倍

人工智能初创公司Luma近日在X平台宣布,其开源了一项名为Inductive Moment Matching(IMM)的图像模型预训练技术。 这一突破性技术以其高效和稳定的特性引发了广泛关注,被认为是生成式AI领域的一次重要进步。 据X用户linqi_zhou透露,IMM是一种全新的生成范式,能够以单模型和单一目标从零开始稳定训练,同时在采样效率和样本质量上超越传统方法。
3/13/2025 2:13:00 PM
AI在线

Luma AI发布Ray3:以“推理”能力革新视频生成,支持16位色深

人工智能公司Luma AI近日推出了其最新的视频生成模型Ray3,旨在通过其独特的HDR(高动态范围)能力,革新视频创作流程。 Ray3号称是首个能够生成工作室质量HDR视频的AI模型,标志着视频生成技术迈出了重要的一步。 HDR与专业工作流程的无缝整合Ray3最引人注目的特点是其对高动态范围视频的支持。
9/19/2025 9:56:41 AM
AI在线

​好莱坞危机:Luma AI CEO 称唯有 AI 才能拯救电影行业

随着好莱坞不断推出同样三部曲的电影,Luma AI 的创始人兼首席执行官阿米特・贾因(Amit Jain)对此深感忧虑。 贾因表示,电影行业目前的困境与其保守的创作模式密切相关。 为了推动创新,Luma AI 正在与众多创作者合作,积极应用其 AI 视频生成技术,并在洛杉矶开设了一个 AI 实验室,以帮助电影人将 AI 融入他们的创作中。
9/22/2025 12:51:27 PM
AI在线
  • 1