OpenAI没说的秘密，Meta全揭了？华人一作GPT-4o同款技术，爆打扩散王者

GPT-4o生成的第一视角机器人打字图这次，来自Meta等机构的研究者，发现在多模态大语言模型（MLLMs）中，视觉词表存在维度冗余：视觉编码器输出的低维视觉特征，被直接映射到高维语言词表空间。研究者提出了一种简单而新颖的Transformer图像token压缩方法：Token-Shuffle。他们设计了两项关键操作：token混洗（token-shuffle）：沿通道维度合并空间局部token，用来减少输入token数；token解混（token-unshuffle）：在Transformer块后解构推断token，用来恢复输出空间结构。

GPT-4o生成的第一视角机器人打字图

这次，来自Meta等机构的研究者，发现在多模态大语言模型（MLLMs）中，视觉词表存在维度冗余：视觉编码器输出的低维视觉特征，被直接映射到高维语言词表空间。

研究者提出了一种简单而新颖的Transformer图像token压缩方法：Token-Shuffle。

他们设计了两项关键操作：

token混洗（token-shuffle）：沿通道维度合并空间局部token，用来减少输入token数；
token解混（token-unshuffle）：在Transformer块后解构推断token，用来恢复输出空间结构。

在输入准备阶段，通过一个MLP模块将空间上相邻的token进行融合，形成一个压缩后的token，同时保留局部的关键信息。

对于打乱窗口大小为s的情况，token数量会按s的平方减少，从而大幅降低Transformer的运算量。

图3：视觉词汇维度冗余的示意图。左侧：通过两个MLP操作将视觉token的秩降低r倍。右侧：不同r值下的预训练损失（对数刻度困惑度）

在经过Transformer层处理后，token-unshuffle操作重新还原出原本的空间排列过程。这一阶段同样借助了轻量级的MLP模块。

本质上，新方法在训练和推理过程中并未真正减少序列长度，而是在Transformer计算过程中，有效减少了token数量，从而加速计算。

图4直观地展示了新方法在效率上的提升。

图4：Token-Shuffle能够实现计算效率的二次提升

通过在Transformer计算期间压缩token序列，Token-Shuffle实现了高效的高分辨率图像生成，包括支持2048×2048分辨率的图像。

重要的是，这种方法无需对Transformer架构本身进行修改，也不引入辅助损失函数或需要额外预训练的编码器。

此外，该方法还集成了一个针对自回归生成专门调整的无分类器引导（Classifier-Free Guidance，CFG）调度器。

不同于传统的固定引导强度，新的CFG调度器在推理过程中逐步调整引导力度，减少早期token生成的伪影问题，并进一步提升文本与图像的对齐效果。

研究者探索了几种CFG调度策略，相关结果展示在图5中。

根据视觉质量和人类评估的反馈，默认采用「半线性」（half-linear）调度器，以获得更好的生成效果。

图5：不同CFG调度器的比较，CFG尺度从1单调增加到7.5

右侧结果显示，相较于在所有视觉token上使用固定7.5的CFG值，采用CFG调度器能够同时提升图像的美学质量和文本对齐效果。

不同无分类器引导（CFG）尺度下的生成图像示例

自回归的历史性突破

该方法通过与文本提示联合训练，无需额外预训练文本编码器，就能让MLLMs在下一个token预测框架下，支持超高分辨率图像合成，同时保持高效训练推理。

这是自回归模型首次实现2048×2048分辨率的文生图。

在GenAI基准测试中，27亿参数Llama模型在困难提示下取得0.77综合得分，较AR模型LlamaGen提升0.18，超越扩散模型LDM达0.15。

大规模人工评估也证实新方法在文本对齐度、视觉缺陷率和美学质量上的全面优势。

在MLLMs高效生成高分辨率图像领域，Token-Shuffle有望成为基准设计方案。

消融实验等更多内容和细节，参阅原论文。

模型训练：3步曲

实验使用2.7B Llama模型，维度为3072，由20个自回归Transformer模块组成。

模型的预训练被分为3个阶段，从低分辨率到高分辨率图像生成。

首先，研究者使用512×512分辨率的图像进行训练，在此阶段不使用Token-Shuffle操作，因为此时视觉token的数量并不大。在这一阶段，他们训练了约50亿个token，使用4K的序列长度、512的全局批量大小和总共211K步。

接下来，研究者将图像分辨率提升到1024×1024，并引入Token-Shuffle操作，减少视觉token数量，提高计算效率。在这一阶段，他们将训练token数量扩展到2TB。

最后，研究者使用之前训练的checkpoint，将分辨率进一步提升至2048×2048，训练约300亿个token，初始学习率设为4e−5。

他们引入了z-loss，用于稳定高分辨率图像生成的训练。

原文图11：在2048×2048分辨率下训练时的平均损失（左）和梯度范数（右）。在大约20K次迭代后出现训练不稳定现象

在不同阶段，研究者对所有模型进行了微调，学习率为4e−6，使用1500张精选的高美学质量图像进行展示。

默认情况下，除非另有说明，可视化和评估是基于1024×1024分辨率和2大小的token-shuffle窗口的微调结果。

量化评估：又快又好

表1中的结果突显了Token-Shuffle的强大性能。

与其他自回归模型相比，新方法在「基本」(basic)提示上整体得分超越LlamaGen 0.14分，在「高难度」（hard）提示上超越0.18分。

与扩散基准相比，新方法在「高难度」提示上超越DALL-E 3 0.7分。

表1：在GenAI-Bench上的图像生成VQAScore评估。「†」表示图像是通过Llama3重写提示生成的，保证训练与推理的一致性

除了表1中报告的VQAScore结果外，研究者还进行了额外的自动评估GenEval，并在表2中报告了详细的评估结果。

实验结果表明，除了高分辨率外，Token-Shuffle作为一个纯自回归模型，能够呈现出令人满意的生成质量。

表2：在GenEval基准测试上的评估。

人类评估

尽管自动化评估指标提供了无偏的评估，但最近的研究所指出它们可能并不能完全捕捉到人类偏好。

为此，研究者还在GenAI-Bench提示集上进行了大规模的人类评估，将新模型Token-Shuffle与LlamaGen、LuminamGPT和LDM进行了比较，分别代表了自回归模型、MLLM和扩散模型。

在人类评估中，重点关注三个关键指标：

文本对齐，评估图像与文本提示的匹配准确度；
视觉缺陷，检查逻辑一致性，避免出现不完整的身体或多余的肢体等问题；
视觉外观，评估图像的美学质量。

存在视觉缺陷与结构错误的生成图像示例（红色圆圈标记处）

图6展示了结果，新模型在所有评估方面始终优于基于自回归的模型LlamaGen和LuminamGPT。

这表明，即使在大幅减少token数量以提高效率的情况下，Token-Shuffle也能有效地保留美学细节，并且能够紧密遵循文本引导，前提是进行了充分的训练。

在生成结果（无论是视觉外观还是文本对齐）上，研究者展示了基于自回归的多模态大语言模型（AR-based MLLMs）能够与扩散模型相媲美或更胜一筹。

然而，研究者观察到，Token-Shuffle在视觉缺陷方面略逊于LDM。

图6：人类评估结果｜在文本对齐、视觉缺陷和视觉外观方面等方面，比较了Token-Shuffle与无文本的自回归模型LlamaGen、带文本的自回归模型Lumina-mGPT以及基于扩散的模型LDM的表现

可视化示例

研究者将Token-Shuffle与其他模型进行了视觉效果对比，包括两种基于扩散的模型LDM和Pixart-LCM，以及一种自回归模型LlamaGen。

图7展示了可视化例子。

虽然所有模型的生成效果都不错，但Token-Shuffle在文本对齐方面表现得更加出色。

与自回归模型LlamaGen相比，Token-Shuffle在相同推理开销下实现了更高的分辨率，带来了更好的视觉质量和文本对齐效果。

与扩散模型相比，自回归模型Token-Shuffle在生成性能上表现出竞争力，同时还能支持高分辨率输出。

图7：与其他开源的基于扩散模型和基于自回归模型的视觉效果对比

一作简介

马旭（Xu Ma）

他是美国东北大学工程学院的博士研究生。

在此之前，他在美国德克萨斯大学北部分校计算机科学与工程系工作了两年。

在南京林业大学信息科学与技术学院，他获得了学士和硕士学位。

他的研究兴趣包括：模型效率、多模态大语言模型（LLM）、生成式人工智能（Generative AI）。

在博士学习期间，他获得了一些奖项，包括ICME'20最佳学生论文奖、SEC'19最佳论文奖、NeurIPS'22杰出审稿人奖和CVPR'23杰出审稿人奖。

OpenAI没说的秘密，Meta全揭了？华人一作GPT-4o同款技术，爆打扩散王者

自回归的历史性突破

一作简介

相关资讯

全球顶级AI科学家许主洪加盟阿里！IEEE Fellow，五万被引论文数，曾任Salesforce集团副总裁

多模态大模型事实正确性评估：o1最强，模型普遍过于自信，最擅长现代建筑/工程技术/科学

识别高分低能，综合性视觉语言理解新基准，五项挑战评估多模态模型的推理能力