Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

作者：故渊 2024-08-24 06:57

Meta AI 公司最新推出了 Transfusion 新方法，可以结合语言模型和图像生成模型，将其整合到统一的 AI 系统中。AI在线援引团队介绍，Transfusion 结合了语言模型在处理文本等离散数据方面的优势，以及扩散模型在生成图像等连续数据方面的能力。Meta 解释说，目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词，然后将其与单独的扩散模型结合起来生成图像。许多多模态语言模型的工作原理与此类似，它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。不过 Transfusion

Meta AI 公司最新推出了 Transfusion 新方法，可以结合语言模型和图像生成模型，将其整合到统一的 AI 系统中。

AI在线援引团队介绍，Transfusion 结合了语言模型在处理文本等离散数据方面的优势，以及扩散模型在生成图像等连续数据方面的能力。

Meta 解释说，目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词，然后将其与单独的扩散模型结合起来生成图像。

许多多模态语言模型的工作原理与此类似，它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。

不过 Transfusion 采用单一、统一的 Transformer 架构，适用于所有模式，对文本和图像数据进行端到端训练。文本和图像使用不同的损失函数：文本使用下一个标记预测，图像使用扩散。

Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

为了同时处理文本和图像，图像被转换成图像片段序列。这样，模型就能在一个序列中同时处理文本标记和图像片段，特殊的注意力掩码（attention mask）还能让模型捕捉图像内部的关系。

有别于 Meta 现有的 Chameleon（将图像转换成离散的标记，然后用处理文本的方式处理）等方法，Transfusion 保留了图像的连续表示法，避免了量化造成的信息损失。

实验还表明，与同类方法相比，"融合" 的扩展效率更高。在图像生成方面，它取得了与专门模型相似的结果，但计算量却大大减少，令人惊讶的是，整合图像数据还提高了文本处理能力。

Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

研究人员在 2 万亿个文本和图像标记上训练了一个 70 亿参数的模型。该模型在图像生成方面取得了与 DALL-E 2 等成熟系统相似的结果，同时还能处理文本。

AI在线附上参考地址

Meta's "Transfusion" blends language models and image generation into one unified model

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

本文引入了 Transfusion，这是一种可以在离散和连续数据上训练多模态模型的方法。一般来说，多模态生成模型需要能够感知、处理和生成离散元素（如文本或代码）和连续元素（如图像、音频和视频数据）。在离散模态领域，以预测下一个词为目标的语言模型占据主导地位，而在生成连续模态方面，扩散模型及其泛化形式则是当前最先进技术。研究者一直试图将语言模型与扩散模型结合，一种方法是直接扩展语言模型，使其能够利用扩散模型作为一个工具，或者将一个预训练的扩散模型嫁接到语言模型上。另一种替代方案是对连续模态进行量化处理，然后在离散的

8/26/2024 9:22:00 AM 机器之心

多模态文档LayoutLM版面智能理解技术演进-纪传俊

LayoutLM经过从1.0到3.0版本的迭代，不断优化模型，可见多模态技术对于文档理解的可行性和未来巨大的潜力未读抱拳拒绝赞感谢找文档图片文件@消息更多酷应用

12/20/2022 3:28:00 PM 达观数据

Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

相关资讯

统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

华人一作统一「视觉-语言」理解与生成：一键生成图像标注，完成视觉问答，Demo可玩

多模态文档LayoutLM版面智能理解技术演进-纪传俊