GPT-4 的识图威力什么时候能上线呢?这个问题目前依然没有答案。但研究社区已经等不及了,纷纷自己上手 DIY,其中最火的是一个名为 MiniGPT-4 的项目。MiniGPT-4 揭示了许多类似于 GPT-4 的威力,例如天生详细的图象形容并从手写草稿创建网站。此外,作者还观察到 MiniGPT-4 的其他新兴威力,包括根据给定的图象创作故事和诗歌,提供解决图象中显示的问题的解决方案,根据食品照片教用户如何烹饪等。该项目上线 3 天就拿到了近一万的 Star 量。
今天要介绍的项目 ——LLaVA(Large Language and Vision Assistant)与之类似,是一个由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布的多模态大模型。论文链接:https://arxiv.org/pdf/2304.08485.pdf项目链接:https://llava-vl.github.io/该模型揭示出了一些接近多模态 GPT-4 的图文懂得威力:相对于 GPT-4 获得了 85.1% 的相对得分。当在科学问答(Science QA)上举行微调时,LLaVA 和 GPT-4 的协同作用实现了 92.53% 准确率的新 SoTA。
以下是机器之心的试用结果(更多结果见文末):
论文概览人类通过视觉和说话等多种渠道与世界交互,因为不同的渠道在代表和传达某些概念时都有各自独特的优势,多渠道的方式有利于更好地懂得世界。人工智能的核心愿望之一是开发一个通用的助手,能够有效地遵循多模态指令,例如视觉或说话的指令,满足人类的意图,在真实环境中完成各种工作。为此,社区兴起了对开发基于说话增强的视觉模型的风潮。这类模型在开放世界视觉懂得方面具有强大的威力,如分类、检测、分割和图文,以及视觉天生和视觉编辑威力。每个工作都由一个大型视觉模型独立解决,在模型设计中隐含地考虑了工作的需求。此外,说话仅用于形容图象内容。虽然这使得说话在将视觉信号映射到说话语义(人类交流的常见渠道)方面发挥了重要作用,但它导致模型通常具有固定的界面,在交互性和对用户指令的适应性上存在限制。另一方面,大型说话模型(LLM)已经表明,说话可以发挥更广泛的作用:作为通用智能助理的通用交互接口。在通用接口中,各种工作指令可以用说话明确表示,并引导端到端训练的神经网络助理切换模式来完成工作。例如,ChatGPT 和 GPT-4 最近的成功证明了 LLM 在遵循人类指令完成工作方面的能量,并掀起了开发开源 LLM 的热潮。其中,LLaMA 是一种与 GPT-3 性能相近的开源 LLM。Alpaca、Vicuna、GPT-4-LLM 利用各种机器天生的高质量指令跟踪样本来提高 LLM 的对齐威力,与专有 LLM 相比,揭示出了令人印象深刻的性能。但遗憾的是,这些模型的输出仅为文本。在本文中,研究者提出了视觉 instruction-tuning 方法,首次尝试将 instruction-tuning 扩展到多模态空间,为构建通用视觉助理铺平了道路。具体来说,本文做出了以下贡献:多模态指令数据。当下关键的挑战之一是缺乏视觉与说话组成的指令数据。本文提出了一个数据重组方式,应用 ChatGPT/GPT-4 将图象 – 文本对转换为适当的指令格式;大型多模态模型。研究者通过连接 CLIP 的开源视觉编码器和说话解码器 LLaMA,开发了一个大型多模态模型(LMM)—— LLaVA,并在天生的视觉 – 说话指令数据上举行端到端微调。实证研究验证了将天生的数据用于 LMM 举行 instruction-tuning 的有效性,并为构建遵循视觉 agent 的通用指令提供了较为实用的技巧。应用 GPT-4,本文在 Science QA 这个多模态推理数据集上实现了最先进的性能。开源。研究者向公众发布了以下资产:天生的多模式指令数据、用于数据天生和模型训练的代码库、模型检查点和可视化聊天演示。LLaVA 架构本文的主要目标是有效利用预训练的 LLM 和视觉模型的功能。网络架构如图 1 所示。本文选择 LLaMA 模型作为 LLM fφ(・),因为它的有效性已经在几个开源的纯说话 instruction-tuning 工作中得到了证明。
对于输出图象 X_v,本文应用预训练的 CLIP 视觉编码器 ViT-L/14 举行处理,得到视觉特性 Z_v=g (X_v)。实验中应用的是最后一个 Transformer 层之前和之后的网格特性。本文应用一个简单的线性层来将图象特性连接到单词嵌入空间中。具体而言,应用可训练投影矩阵 W 将 Z_v 转换为说话嵌入标记 H_q,H_q 具有与说话模型中的单词嵌入空间相同的维度:
之后,得到一系列视觉标记 H_v。这种简单投影方案具有轻量级、成本低等特点,能够快速迭代以数据为中心的实验。也可以考虑连接图象和说话特性的更复杂(但昂贵)的方案,例如 Flamingo 中的门控交叉注意力机制和 BLIP-2 中的 Q-former,或者提供对象级特性的其他视觉编码器,如 SAM。实验结果多模态聊天机器人研究者开发了一个聊天机器人示例产品,以揭示 LLaVA 的图象懂得和对话威力。为了进一步研究 LLaVA 如何处理视觉输出,展现其处理指令的威力,研究者首先应用 GPT-4 原始论文中的示例,如表 4 和表 5 所示。应用的 prompt 需要贴合图象内容。为了举行比较,本文引用了其论文中多模态模型 GPT-4 的 prompt 和结果。
令人惊讶的是,尽管 LLaVA 是用一个小的多模态指令数据集(约 80K 的不重复图象)训练的,但它在以上这两个示例上揭示了与多模态模型 GPT-4 非常相似的推理结果。请注意,这两张图象都不在 LLaVA 的数据集范围内,LLaVA 能够懂得场景并按照问题说明举行回答。相比之下,BLIP-2 和 OpenFlamingo 专注于形容图象,而不是按照用户指令以适当的方式举行回答。更多示例如图 3、图 4 和图 5 所示。
定量评估结果见表 3。
ScienceQAScienceQA 包含 21k 个多模态多选问题,涉及 3 个主题、26 个话题、127 个类别和 379 种技能,具有丰富的领域多样性。基准数据集分为训练、验证和测试部分,分别有 12726、4241 和 4241 个样本。本文对比了两种有代表性的方法,包括 GPT-3.5 模型(text-davinci-002)和没有思维链(CoT)版本的 GPT-3.5 模型,LLaMA-Adapter,以及多模态思维链(MM-CoT)[57],这是该数据集上当前的 SoTA 方法,结果如表 6 所示。
试用反馈在论文给出的可视化应用页面上,机器之心也尝试着输出了一些图片和指令。首先是问答里常见的数人工作。测试表明,数人的时候较小的目标会被忽略,重叠的人也有识别误差,性别也有识别误差。
接着,我们尝试了一些天生工作,比如为图片起名字,或者根据图片讲一个故事。模型输出的结果还是偏向于图片内容懂得,天生方面的威力还有待加强。
在这张照片中,即便人体有重合也依然能准确地识别出人数。从图片形容和懂得威力的角度来看,本文的工作还是存在亮点,存在着二创的空间。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/22662