谷歌 Fluid 颠覆共识：两大因素被发现，AI 文生图领域自回归模型超越扩散模型

作者：故渊 2024-10-23 01:35

科技媒体 The Decoder 昨日（10 月 22 日）发布博文，报道称谷歌 DeepMind 团队携手麻省理工学院（MIT），推出了全新的“Fluid”模型，在规模达到 105 亿参数时候，能取得最佳的文生图效果。目前在文生图领域，行业内的一个共识是自回归模型（Autoregressive Models）不如扩散模型（Diffusion Models）。 AI在线简要介绍下这两种模型：扩散模型 (Diffusion Models): 这是一种最近非常热门的内容生成技术，它模拟的是信号从噪声中逐渐恢复的过程。

科技媒体 The Decoder 昨日（10 月 22 日）发布博文，报道称谷歌 DeepMind 团队携手麻省理工学院（MIT），推出了全新的“Fluid”模型，在规模达到 105 亿参数时候，能取得最佳的文生图效果。

目前在文生图领域，行业内的一个共识是自回归模型（Autoregressive Models）不如扩散模型（Diffusion Models）。

AI在线简要介绍下这两种模型：

扩散模型 (Diffusion Models): 这是一种最近非常热门的内容生成技术，它模拟的是信号从噪声中逐渐恢复的过程。扩散模型通过迭代地减少随机噪声来生成高质量的图像、文本和其他形式的数据。比如应用于图像生成领域中的 DDPM（离散扩散概率模型）及其变体就有很高的关注度。
自回归模型 (Autoregressive Models): 自回归模型预测序列中的下一个元素时，依赖于前面的元素。在文本生成领域，像基于 Decoder-only 的 GPT 系列（如 GPT-3、GPT-4）就是典型的自回归模型，它们逐词预测下一个词，从而生成连贯的文本段落。

谷歌 DeepMind 和 MIT 团队通过深入研究，发现了使用连续 tokens（非离散 tokens）和采用随机生成顺序（非固定顺序）两个关键设计因素，显著提高了自回归模型的性能和可扩展性。

团队表示在离散 tokens 为每个图像区域分配一个来自有限词汇的代码，这会导致信息丢失，而连续 tokens 可以更精确地图像信息存储，减少信息丢失。这让模型能够更好地重建图像，提高视觉质量。

此外大多数自回归模型以固定顺序生成图像，而 Fluid 采用随机生成顺序，让模型能够在每一步预测任意位置的多个像素，这种方法在理解整体图像结构时表现更为出色。

Fluid 模型结合了连续标记和随机生成顺序后，当其规模扩大到 105 亿参数时，Fluid 在重要基准测试中超越了 Stable Diffusion 3 扩散模型和谷歌此前的 Parti 自回归模型。

与 Parti 相比，Fluid 显示出显著的改进：拥有 200 亿参数的 Parti 在 MS-COCO 上达到了 7.23 的 FID 分数，而仅有 3.69 亿参数的小型 Fluid 模型却达到了相同的分数。

微软 GitHub 推出 Models 服务：定位 AI 工程师，让开发者试用和部署模型

感谢微软旗下代码托管平台 GitHub 最新推出了 GitHub Models 服务，定位是新一代 AI 工程师，帮助开发者选择适合其应用的 AI 模型。GitHub 在官方新闻稿中表示，GitHub Models 将服务该平台 1 亿多用户，为其提供业界领先的大语言模型（LLM）或者小语言模型（SLM）。 AI在线注：GitHub Models 服务目前处于限量公测阶段，可以对接 OpenAI 的 GPT-4o 和 GPT-4o mini、微软的 Phi 3、Meta 的 Llama 3.1 以及 Mistral

8/2/2024 10:50:52 AM 故渊

苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x1024分辨率

习惯了 Stable Diffusion，如今终于又迎来一个俄罗斯套娃式（Matryoshka）Diffusion 模型，还是苹果做的。在生成式 AI 时代，扩散模型已经成为图像、视频、3D、音频和文本生成等生成式 AI 应用的流行工具。然而将扩散模型拓展到高分辨率领域仍然面临巨大挑战，这是因为模型必须在每个步骤重新编码所有的高分辨率输入。解决这些挑战需要使用带有注意力块的深层架构，这使得优化更困难，消耗的算力和内存也更多。怎么办呢？最近的一些工作专注于研究用于高分辨率图像的高效网络架构。但是现有方法都没有展示出超

10/30/2023 5:18:00 PM 机器之心

实时文生图速度提升5-10倍，清华LCM/LCM-LoRA爆火，浏览超百万、下载超20万

生成式模型进入「实时」时代？文生图、图生图已经不是什么新鲜事。但在使用这些工具的过程中，我们发现它们通常运行缓慢，导致我们要等一段时间才能拿到生成结果。但最近，一种名叫「LCM」的模型改变了这种情况，它甚至能做到实时的连续生图。图源：的全称是 Latent Consistency Models（潜在一致性模型），由清华大学交叉信息研究院的研究者们构建。在这个模型发布之前，Stable Diffusion 等潜在扩散模型（LDM）由于迭代采样过程计算量大

11/15/2023 3:23:00 PM 机器之心

谷歌 Fluid 颠覆共识：两大因素被发现，AI 文生图领域自回归模型超越扩散模型

相关资讯

微软 GitHub 推出 Models 服务：定位 AI 工程师，让开发者试用和部署模型

苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x1024分辨率

实时文生图速度提升5-10倍，清华LCM/LCM-LoRA爆火，浏览超百万、下载超20万