视觉说话模型导论：这篇论文能成为你进军VLM的第一步

近些年，说话建模范围进展非凡。Llama 或 ChatGPT 等许多大型说话模型（LLM）有才智解决多种不同的使命，它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入，但现在也正在具备处理视觉输入的才智。如果能将视觉与说话打通，那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型说话模型扩展到了视觉范围，但视觉与说话之间的连接尚未被彻底打通。举些例子，大多数模型都难以明白空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视

近些年，说话建模范围进展非凡。Llama 或 ChatGPT 等许多大型说话模型（LLM）有才智解决多种不同的使命，它们也正在成为越来越常用的工具。

这些模型之前基本都局限于文本输入，但现在也正在具备处理视觉输入的才智。如果能将视觉与说话打通，那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。

即便现在已有不少研究将大型说话模型扩展到了视觉范围，但视觉与说话之间的连接尚未被彻底打通。举些例子，大多数模型都难以明白空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视觉说话模型（VLM）依然难以明白属性和顺序。它们往往会忽略输入 prompt 的某些部分，因此为了得到理想结果，用户常常需要在提示工程上费心费力。还有些模型会产生幻觉，产出无用或不相关的内容。因此，人们依然在大力开发稳定的模型。

如果你是有志这一行业的学生或爱好者或想要从其它 AI 范围转战此方向，那么请一定不要错过我们今天要介绍的这篇《视觉说话模型导论》。

视觉说话模型导论：这篇论文能成为你进军VLM的第一步

论文标题：An Introduction to Vision-Language Modeling

论文地址：https://arxiv.org/pdf/2405.17247

这篇导论来自 Meta 和蒙特利尔大学等多所研究机构的数十位研究者，将解释 VLM 是什么、它们是如何训练的以及如何鉴于不同研究指标有效地评价它们。

该团队表示，这篇论文的指标是帮助读者轻松明白 VLM 并着重说明这一范围的有效实践，而不是提供 VLM 研究成果的详尽综述或完整指南。

多种多样的 VLM

得益于深度进修的发展，计算机视觉和自然说话处理范围都取得了令人瞩目的进展，也因此已经有不少研究团队尝试过将这两个范围连接到一起。

这篇论文关注的重点是最近期的鉴于 Transformer 的技术。

该团队将尝试打通这两大范围的研究成果，按训练范式分成了四类，见图 1。

视觉说话模型导论：这篇论文能成为你进军VLM的第一步

第一类是对比式训练（contrastive training），这是一种运用正例和负例对来训练模型的常用策略。VLM 的训练指标是为正例对预测相似的表征，为负例对预测不同的表征。

第二类是掩码（masking），其方式是根据某些未被遮掩的文本来重建被遮掩的图块。类似地，通过遮掩描述中的词，也可以让 VLM 根据未被遮掩的图象来重建这些被遮掩的词。

另一类是鉴于预训练骨干网络来训练 VLM，这往往是运用 Llama 等开源 LLM 来进修图象编码器（也可能是预训练的）和 LLM 之间的映照关系。相比于从头开始训练文本和图象编码器，进修预训练模型之间的映照关系的计算成本往往更低。

大部分这类方式都是运用中间表征或部分重建，而生成式 VLM 则能生成图象或描述。有鉴于这类模型的性质，它们的训练成本通常是最高的。

需要说明：这些范式并不是互斥的，很多方式都混合运用了对比、掩码和生成范式。文中为每种范式都提供了一两个模型进行说明，以帮助读者了解这些模型的设计思路。

鉴于 Transformer 的 VLM 早期研究

通过运用 Transformer 架构，BERT（运用 Transformer 的双向编码器表征）一诞生，就超过了当时所有的说话建模方式。之后不久，BERT 就被扩展用来处理视觉数据。visual-BERT 和 ViLBERT 是其中两个代表，它们的做法是将文本与图象 token 组合到一起。

这些模型有两个训练指标：1) 经典的掩码建模使命，指标是预测给定输入中缺失的部分；2) 句子 – 图象预测使命，指标是预测图象标注是否描述了图象内容。

通过利用这两个指标，这些模型在多种视觉 – 说话使命上表现出色，这主要是得益于 Transformer 模型有才智学会通过注意力机制将词与视觉线索关联起来。

鉴于对比的 VLM

鉴于对比的训练往往能通过鉴于能量的模型（EBM）更好地解释，即模型的训练指标是为观察到的变量分配低能量，为未被观察到的变量分配高能量。来自指标分布的数据的能量应该较低，其它数据点的能量应该较高。

运用掩码指标的 VLM

在深度进修研究中，掩码是一种常用技术。它可被视为一种特定形式的去噪自动编码器，其中的噪声有一种空间结构。它也与修复（inpainting）策略有关，该策略曾被用于进修强大的视觉表征。BERT 也在训练阶段运用了掩码式说话建模（MLM）来预测句子中缺失的 token。掩码方式非常适合 Transformer 架构，因此输入信号的 token 化使得随机丢弃特定的输入 token 变得更容易。

已经有一些研究在图象方面探索这一方式，即掩码式图象建模（MIM），具体案例包括 MAE 和 I-JEPA。

很自然地，也有人将这两者组合起来训练 VLM。其一是 FLAVA，其运用了掩码在内的多种训练策略来进修文本和图象表征。另一个是 MaskVLM，这是一种独立模型。

鉴于生成的 VLM

上面的训练范式主要是操作隐含表征来构建图象或文本抽象，之后再在它们之间映照，生成范式则不同，它考虑文本和 / 或图象的生成。

CoCa 等一些方式会进修一个完整的文本编码器和解码器来描述图象 Chameleon Team 和 CM3leon 等另一些方式则是多模态的生成模型，其训练指标就包括生成文本和图象。最后，还有些模型的指标是鉴于文本生成图象，比如 Stable Diffusion、Imagen 和 Parti。但是，即便它们是为生成图象而生的，它们也能被用于解决一些视觉 – 说话明白使命。

用预训练骨干网络构建的 VLM

VLM 的一个缺点是从头开始训练的成本很高。这通常需要成百上千台 GPU，同时还必须运用上亿对图象和文本。因此，也有很多研究者探索运用已有的 LLM 和 / 或视觉提取器，而不是从头开始训练模型。

这种做法的另一个优势是可以利用现在很多开源且易用的 LLM。

通过运用这样的模型，有可能进修到仅在文本模态和图象模态之间的映照。通过进修这样的映照，仅需要少量计算资源就可让 LLM 有才智回答视觉问题。

该团队在论文中说明了这类模型的两个代表：一是首个运用预训练 LLM 的模型 Frozen，二是 Mini-GPT。详见原论文。

VLM 训练指南

有一些研究揭示了进一步扩大深度神经网络规模的重要性。受这些 scaling law 的激励，最近不少项目都在通过增加计算量和扩大模型规模来进修更好的模型。这就催生了 CLIP 等模型 —— 其训练运用了 4 亿张图象，计算预算自然也非常高。就算是其开源实现 OpenCLIP，根据模型大小的不同，训练也运用了 256 到 600 台 GPU，耗时数天到几周。

但是，又有一项研究表明通过精心的数据整编，有可能战胜 scaling law。这一节首先将讨论训练模型时数据的重要性，并会给出一些用于构建 VLM 训练数据集的方式。

然后会讨论常用的软件、工具和技巧，它们可帮助实践者更高效地训练 VLM。

由于训练 VLM 有多种不同方式，所以文中还会讨论特定情形下应该选用什么类型的模型。

之后，该团队还会给出一些提高定基（grounding，即正确映照文本与视觉线索的才智）的技巧，并介绍运用人类偏好提高对齐的技术。

VLM 常被用于阅读和翻译文本，所以他们也会分享一些用于进一步提高 VLM 的 OCR 才智的技术。

最后是一些常用的微调方式。

视觉说话模型导论：这篇论文能成为你进军VLM的第一步

训练数据

为了评价预训练数据集的质量，DataComp 提出了一个基准，其中 CLIP 的模型架构和预训练超参数都是固定的。其评价重点是设计出能在 38 个下游使命上取得优良零样本和检索性能的图象 – 文本数据集。DataComp 提供了多个有噪声网页数据集池，规模从小型（1.28M）到超大型（12.8B）不等。针对每个池，都有多个过滤策略被提出和评价。DataComp 表明：为了训练出高效高性能的 VLM，数据剪枝是一个关键步骤。

用于 VLM 的数据剪枝方式可以分为三大类：(1) 启发式方式，可以清除低质量数据对；(2) bootstrapping 方式，运用预训练的 VLM 评价图象和文本的多模态对齐程度，然后丢弃其中对齐较差的数据对；(3) 用于创建多样化和平衡数据集的方式。具体的措施包括：

运用合成数据来提高训练数据

运用数据增强

交错式的数据整编

评价多模态数据质量

利用人类专业知识：数据标注的力量

软件

这一小节讨论了现有的可用于评价和训练 VLM 的软件以及训练它们所需的资源。

运用现有的公共软件库

我需要多少台 GPU？

为训练加速

其它超参数的重要性

运用什么模型？

前面已经提到，训练 VLM 的方式有好几种。一些是运用简单的对比训练方案，一些则是运用掩码策略来预测缺失的文本或图块，还有一些模型运用的是自回归或扩散等生成范式。也有可能运用 Llama 或 GPT 等预训练的视觉或文本骨干网络。在这种情况下，构建 VLM 模型仅需进修 LLM 和视觉编码器表征之间的映照。

那么，应该如何选择这些方式呢？我们需要像 CLIP 一样从头开始训练视觉和文本编码器，还是像 Flamingo 或 MiniGPT 一样从预训练的 LLM 开始训练？

何时运用 CLIP 这样的对比模型？

何时运用掩码？

何时运用生成模型？

何时运用 LLM 作为预训练骨干网络？

提高定基

在 VLM 和生成模型文献中，定基（grounding）是一个关键难题。定基的指标主要是解决模型不能很好明白文本 prompt 的问题，这个问题既可能导致模型忽视 prompt 中的某些部分，也可能导致其产生幻觉，想象出 prompt 中没有的内容。

解决这些难题需要明白关系，比如确定一个物体是在左边还是右边、否定、计数、明白属性（如颜色或纹理）。

提高定基这个研究范围很活跃，而目前还尚未出现一种能解决此难题的单一简单方式。尽管如此，在提高定基性能方面，还是有一些技巧可用：

运用边界框标注

否定描述

提高对齐

受说话范围指令微调的成功的启发视觉说话模型也开始整合指令微调和根据人类反馈的强化进修（RLHF）来提高多模态聊天才智以及将输出与期望响应对齐。

指令微调涉及到在一个包含指令、输入和期望响应的监督式数据集上对视觉说话模型进行微调。通常来说，指令微调数据集的规模远小于预训练数据集 —— 指令微调数据集的规模从少量到数十万不等。整合了指令微调的视觉说话模型包括 LLaVa、InstructBLIP、OpenFlamingo。

RLHF 的另一个指标是对齐模型输出与人类偏好。运用 RLHF 时，需要训练一个奖励模型来匹配人类偏好 —— 即人类认为一个模型响应是好是坏。尽管指令微调需要监督训练样本（收集成本较高），但 RLHF 则可运用辅助式奖励模型来模拟人类偏好。然后再运用该奖励模型来微调主模型（不管是说话模型还是视觉说话模型），使其输出与人类偏好对齐。LLaVa-RLFH 就是一个视觉说话模型整合 RLHF 的突出案例，其能通过事实信息来提高模型的输出对齐。

提高对富含文本的图象的明白

在我们的日常生活中，视觉感知中有一大关键部分：明白文本。多模态大型说话模型（MLLM）的成功可让 VLM 以零样本方式应用于多种应用，并且其中许多已经可用于真实世界场景。

有研究表明 MLLM 具备卓越的零样本光学字符识别（OCR）才智，无需专门运用特定于 OCR 范围的数据进行训练。但是，当涉及到数据类型之间的复杂关系时，这些模型往往难以解读图象中的文本，原因是它们的训练数据中包含大量自然图象。

下面列出了一些在文本明白方面的常见难题以及试图解决该难题的模型：

运用细粒度的富含文本的数据进行指令微调：LLaVAR

处理高分辨率图象中的细粒度文本：Monkey

分立式场景文本识别模块和 MM-LLM：Lumos

参数高效型微调

事实已经证明，在跨范围视觉和说话使命上，VLM 的效果很好。但是，随着预训练模型大小持续增长，由于计算限制，微调这些模型的全体参数集将变得不切实际。

为了解决这一难题，参数高效型微调（PEFT）方式诞生了，其指标是解决与微调大规模模型相关的高计算成本问题。这些方式关注的重点是训练部分参数来使模型适应下游使命，而不是重新训练全体模型。现有的 PEFT 方式可以分为四大类：

鉴于低秩适配器（LoRa）的方式

鉴于 prompt 的方式

鉴于适应器的方式

鉴于映照的方式

实现负责任 VLM 评价的方式

VLM 的主要才智是实现文本与图象的映照，因此度量其视觉说话才智就非常关键了，因为这能确保词与视觉线索真正实现了映照。

在评价 VLM 方面，早期的评价使命包括图象描述和视觉问答（VQA）。

现在还有以文本为中心的 VQA（text-centric VQA）使命，其评价的是模型明白和阅读图象中的文本的才智。

Radford et al. [2021] 也提出了一种常用的评价方式，该方式是鉴于零样本预测，比如 ImageNet 分类使命。这样的分类使命可以评价 VLM 是否具备足够的世界知识。

Winoground 是一个更近期的基准，其度量的是模型的视觉 – 说话组合推理才智。

另外，我们已经知道 VLM 会表现出偏见和幻觉，因此对这两方面进行评价也非常重要。

视觉说话模型导论：这篇论文能成为你进军VLM的第一步

将 VLM 扩展用于视频

之前谈到的 VLM 基本都是在静态视觉数据（图象）上训练和评价的。但是，视觉数据还有动态的，即视频。

对 VLM 而言，视频数据既能带来新挑战，也有望为其带来新才智，比如明白物体的运动和动态或在空间和时间中定位物体和动作。用文本检索视频、视频问答和视频生成正在快速成为基础的计算机视觉使命。

视频的时间属性对存储、CPU 内存来说都是一个巨大挑战（如果把每一帧都视为一张图象，那么帧率越高，成本就越高）。于是对于处理视频的 VLM 而言，就需要考虑多个权衡因素，比如数据加载器中动态视频解码器的压缩格式、鉴于图象编码器来初始化视频编码器、为视频编码器运用时空池化 / 掩码机制、非端到端 VLM。

与图象 – 文本模型类似，早期的视频 – 文本模型也是运用自监督指标来从头开始训练视觉和文本组件。但不同于图象模型，对比式视频 – 文本模型并非首选方式，早期时人们更喜欢融合和时间对齐方式，因为相比于计算视频的全局表征，让表征中有更多时间粒度更重要。

近段时间，视频 – 说话模型范围出现了图象 – 说话模型范围类似的趋势：运用预训练 LLM 并将其与视频编码器对齐，从而增强 LLM 的视频明白才智。视觉指令微调等现代技术也被广泛运用并被适配用于视频。

{{userData.name}}已认证

视觉说话模型导论：这篇论文能成为你进军VLM的第一步

夺冠！卓世AI斩获全球顶会AAMAS 2024 CE 比赛冠军

俄罗斯科技巨头 Yandex 宣布开源“YaFSDP”大语言模型训练对象：大幅晋升 GPU 利用率，对 Llama 3 可实现 26% 加速

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

Meta 用 AI 生成北极光图片，遭网友怒喷

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

{{userData.name}}已认证

夺冠！卓世AI斩获全球顶会AAMAS 2024 CE 比赛冠军

俄罗斯科技巨头 Yandex 宣布开源“YaFSDP”大语言模型训练对象：大幅晋升 GPU 利用率，对 Llama 3 可实现 26% 加速

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

Meta 用 AI 生成北极光图片，遭网友怒喷

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心 推动大模型产学研合作

字节跳动清华AIR成立联合研究中心推动大模型产学研合作