AI在线 AI在线

谷歌 Fluid 颠覆共识:两大因素被发现,AI 文生图领域自回归模型超越扩散模型

科技媒体 The Decoder 昨日(10 月 22 日)发布博文,报道称谷歌 DeepMind 团队携手麻省理工学院(MIT),推出了全新的“Fluid”模型,在规模达到 105 亿参数时候,能取得最佳的文生图效果。 目前在文生图领域,行业内的一个共识是自回归模型(Autoregressive Models)不如扩散模型(Diffusion Models)。 AI在线简要介绍下这两种模型:扩散模型 (Diffusion Models): 这是一种最近非常热门的内容生成技术,它模拟的是信号从噪声中逐渐恢复的过程。

科技媒体 The Decoder 昨日(10 月 22 日)发布博文,报道称谷歌 DeepMind 团队携手麻省理工学院(MIT),推出了全新的“Fluid”模型,在规模达到 105 亿参数时候,能取得最佳的文生图效果。

目前在文生图领域,行业内的一个共识是自回归模型(Autoregressive Models)不如扩散模型(Diffusion Models)。

谷歌 Fluid 颠覆共识:两大因素被发现,AI 文生图领域自回归模型超越扩散模型

AI在线简要介绍下这两种模型:

  • 扩散模型 (Diffusion Models): 这是一种最近非常热门的内容生成技术,它模拟的是信号从噪声中逐渐恢复的过程。扩散模型通过迭代地减少随机噪声来生成高质量的图像、文本和其他形式的数据。比如应用于图像生成领域中的 DDPM(离散扩散概率模型)及其变体就有很高的关注度。

  • 自回归模型 (Autoregressive Models): 自回归模型预测序列中的下一个元素时,依赖于前面的元素。在文本生成领域,像基于 Decoder-only 的 GPT 系列(如 GPT-3、GPT-4)就是典型的自回归模型,它们逐词预测下一个词,从而生成连贯的文本段落。

谷歌 DeepMind 和 MIT 团队通过深入研究,发现了使用连续 tokens(非离散 tokens)和采用随机生成顺序(非固定顺序)两个关键设计因素,显著提高了自回归模型的性能和可扩展性。

团队表示在离散 tokens 为每个图像区域分配一个来自有限词汇的代码,这会导致信息丢失,而连续 tokens 可以更精确地图像信息存储,减少信息丢失。这让模型能够更好地重建图像,提高视觉质量。

此外大多数自回归模型以固定顺序生成图像,而 Fluid 采用随机生成顺序,让模型能够在每一步预测任意位置的多个像素,这种方法在理解整体图像结构时表现更为出色。

Fluid 模型结合了连续标记和随机生成顺序后,当其规模扩大到 105 亿参数时,Fluid 在重要基准测试中超越了 Stable Diffusion 3 扩散模型和谷歌此前的 Parti 自回归模型。

与 Parti 相比,Fluid 显示出显著的改进:拥有 200 亿参数的 Parti 在 MS-COCO 上达到了 7.23 的 FID 分数,而仅有 3.69 亿参数的小型 Fluid 模型却达到了相同的分数。

相关资讯

微软 GitHub 推出 Models 服务:定位 AI 工程师,让开发者试用和部署模型

感谢微软旗下代码托管平台 GitHub 最新推出了 GitHub Models 服务,定位是新一代 AI 工程师,帮助开发者选择适合其应用的 AI 模型。GitHub 在官方新闻稿中表示,GitHub Models 将服务该平台 1 亿多用户,为其提供业界领先的大语言模型(LLM)或者小语言模型(SLM)。 AI在线注:GitHub Models 服务目前处于限量公测阶段,可以对接 OpenAI 的 GPT-4o 和 GPT-4o mini、微软的 Phi 3、Meta 的 Llama 3.1 以及 Mistral
8/2/2024 10:50:52 AM
故渊

写给小白的大模型入门科普

什么是大模型? 大模型,英文名叫Large Model,大型模型。 早期的时候,也叫Foundation Model,基础模型。
11/22/2024 10:45:20 AM
小枣君

OpenAI在图片领域站起来了!

出品 | 51CTO技术栈(微信号:blog51cto)26日凌晨,OpenAI推出了GPT4o图像生成,可以说解决了此前Midjourney等扩散模型很难解决的问题,业内为之大为赞叹。 这是用手机拍摄的玻璃白板的广角图像,拍摄地点是一间俯瞰海湾大桥的房间。 视野中可以看到一位女士正在写字,她身穿一件印有大型 OpenAI 标志的 T 恤。
3/26/2025 9:29:12 AM
  • 1