AI在线 AI在线

充分激发模态协作,MokA量身打造MLLM微调新范式

本文第一作者卫雅珂为中国人民大学四年级博士生,主要研究方向为多模态学习机制、多模态大模型等,师从胡迪副教授。 作者来自于中国人民大学和上海人工智能实验室。 近年来,多模态大模型(MLLMs)已经在视觉语言、音频语言等任务上取得了巨大进展。

本文第一作者卫雅珂为中国人民大学四年级博士生,主要研究方向为多模态学习机制、多模态大模型等,师从胡迪副教授。作者来自于中国人民大学和上海人工智能实验室。

近年来,多模态大模型(MLLMs)已经在视觉语言、音频语言等任务上取得了巨大进展。然而,当在多模态下游任务进行微调时,当前主流的多模态微调方法大多直接沿用了在纯文本大语言模型(LLMs)上发展出的微调策略,比如 LoRA。但这种「照搬」 策略,真的适用于多模态模型吗?

来自中国人民大学高瓴人工智能学院 GeWu-Lab 实验室、上海人工智能实验室的研究团队在最新论文中给出了一种全新的思考方式。他们指出:当下 MLLMs 微调方案大多简单的将单模态策略迁移至多模态场景,未结合多模态学习特性进行深入思考。事实上,在多模态场景中,单模态信息的独立建模(Unimodal Adaptation)和模态之间的交互建模(Cross-modal Adaptation)是同等重要的,但当前的微调范式往往没有关注思考这两个重要因素,导致对单模态信息的充分利用及跨模态充分交互存在较大局限性。

为此,研究团队充分结合多模态场景的学习特性,提出了 MokA(Multimodal low-rank Adaptation)方法,在参数高效微调背景下对单模态信息的独立建模和模态之间的交互建模进行了并重考量。实验覆盖音频 - 视觉 - 文本、视觉 - 文本、语音 - 文本三大代表性场景,并在 LLaMA、Qwen 等主流 LLM 基座上进行了系统评估。结果显示,MokA 在多个 benchmark 上显著提升了任务表现。

图片

  • 论文链接:https://arxiv.org/abs/2506.05191
  • 项目主页:https://gewu-lab.github.io/MokA

多基座、多场景下均实现性能提升

图片

当下被忽略的模态特性

在本文中,研究团队指出当前多数高效多模态微调方法存在一个关键性限制:它们直接借鉴自单模态的大语言模型的设计。以 LoRA 为例,如下公式所示,在多模态场景中,直接应用 LoRA 将会使得同样的可学习参数 W 被用于同时处理和适配来自不同模态的输入 x。其中,图片 代表第 i 个模态的输入。

图片

而在真实场景中,不同模态的信息存在异质性。因此,这种直接 “照搬” 单模态微调方法的实践忽视多模态场景中模态之间的本质差异,可能导致模型难以充分利用所有模态的信息。基于此研究团队提出,要高效地微调多模态大模型,单模态信息的独立建模(Unimodal Adaptation)和模态之间的交互建模(Cross-modal Adaptation)缺一不可:

图片

如上公式所示意,既需要单模态独有参数保证单模态信息适配不受其他模态干扰,同时也需要跨模态参数对模态间交互对齐进行适配建模。

MokA:关注模态特性的多模态微调方法

基于以上思想,研究团队提出了 MokA 方法,兼顾单模态信息的独立建模和模态之间的交互建模。

图片

MokA 在结构上继承了 LoRA 的核心思想,以保持高效的优点。但基于多模态场景对于 A、B 投影矩阵的角色进行了重新定义。如上图所示,MokA 包括三个关键模块:模态特异的 A 矩阵,跨模态注意力机制和模态共享的 B 矩阵。

模态特异的 A 矩阵: MokA 考虑多模态场景,使用模态特异的 A 矩阵,从而可以在参数空间中保留模态独立性,确保每种模态的信息压缩过程不会互相干扰,是实现单模态信息独立建模的关键一步。

跨模态注意力机制:这一模块的主要目的是显式增强跨模态之间的交互。在进行 instruction tuning 时,通常文本信息包含了具体的问题或任务描述,而其他模态信息提供了回答问题的场景。因此,为了显式加强跨模态交互,MokA 在独立压缩后的低秩空间内对文本和非文本模态之间进行了跨模态建模,加强任务和场景间的关联关系。

模态共享的 B 矩阵:最后,在独立子空间中的各个模态被统一投影到一个共享空间中,利用一个共享的低秩矩阵 B 进行融合,以共享参数的方式进一步隐式实现跨模态对齐。

图片

最终,MokA 的形式化表达如上所示。在多模态场景下,MokA 有效保证了对单模态信息的独立建模和模态之间的交互建模。

实验结果

实验在三个具有代表性的多模态任务场景上进行了评估,分别包括音频 - 视觉 - 文本、视觉 - 文本以及语音 - 文本。同时,在多个主流语言模型基座(如 LLaMA 系列与 Qwen 系列)上系统地验证了方法的适用性。结果表明,MokA 在多个标准评测数据集上均取得了显著的性能提升,展现出良好的通用性与有效性。

图片

表 1: 在音频 - 视觉 - 文本的实验结果。

图片

表 2: 在视觉 - 文本场景的实验结果。

图片

表 3:在语音 - 文本场景的实验结果。

总述

综上所述,MokA 作为一种面向多模态大模型的高效微调方法,兼顾了单模态特性建模与模态间交互建模的双重需求,克服了对模态差异性的忽视问题。在保留 LoRA 参数高效优势的基础上,MokA 通过模态特异 A 矩阵、跨模态注意力机制与共享 B 矩阵协同工作,实现了有效的多模态微调。实验验证表明,MokA 在多个任务和模型基座上均取得显著性能提升,展现适应性和推广潜力,为多模态大模型的微调范式提供了新的方向。

相关资讯

科学家构建多模态LLM框架,进行3D脑CT放射学报告生成

编辑 | 烂菜叶多模态大型语言模型 (MLLM) 已经改变了现代医疗保健的格局,其中自动放射学报告生成 (RRG) 正在成为一种尖端应用。 虽然基于 2D MLLM 的 RRG 已经得到充分认可,但其在 3D 医学图像中的实用性仍未得到充分开发。 在这方面,台北荣民总医院(Taipei Veterans General Hospital)、台湾阳明交通大学(National Yang Ming Chiao Tung University)以及美国加州大学的研究人员整理了 3D-BrainCT 数据集(18,885 个文本扫描对)并开发了 BrainGPT,这是一种专为 3D CT RRG 设计的临床视觉指令调整 (CVIT) 模型。
3/13/2025 2:23:00 PM
ScienceAI

登Nature,超越GPT-4V,MIT、哈佛开发人类病理学多模态AI「副驾驶」

编辑 | KX多年来,计算病理学领域在基于图像、基因组学数据开发越来越准确、针对特定任务的预测模型方面取得了显著进步。然而,尽管生成式人工智能 (AI) 呈爆炸式增长,但在构建针对病理学的通用、多模态 AI 助手和「副驾驶」(Copilot)方面的研究却有限。近日,哈佛大学和 MIT 的研究团队提出了一种用于人类病理学的视觉语言通才 AI 助手:PathChat。研究人员将 PathChat 与几种多模态视觉语言 AI 助手和 GPT-4V 进行了比较。PathChat 在来自不同组织来源和疾病模型的病例的多项选择
6/20/2024 3:56:00 PM
ScienceAI

DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路

刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。 先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力? 结论:不能,因为如果 RL 能有效激励推理能力,Vision-R1-Zero 应该表现出生成复杂 CoT 的能力,并在基准测试中提升准确率。
3/13/2025 8:13:47 AM
余俊晖
  • 1