SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世，学界普遍采用「监督微调强化学习」的两阶段训练范式：先通过推理数据进行监督微调（SFT），再通过强化学习（RL）进一步提升性能。这种成功模式启发了研究人员将其优势从纯文本领域拓展到视觉 - 语言大模型（LVLM）领域。但近日的一项研究成果却给出了一个惊人的发现：「SFT 可能会阻碍学习 —— 经常导致出现伪推理路径，而 RL 则是在促进真正的多模态推理！

随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世，学界普遍采用「监督微调 + 强化学习」的两阶段训练范式：先通过推理数据进行监督微调（SFT），再通过强化学习（RL）进一步提升性能。这种成功模式启发了研究人员将其优势从纯文本领域拓展到视觉 - 语言大模型（LVLM）领域。

但近日的一项研究成果却给出了一个惊人的发现：「SFT 可能会阻碍学习 —— 经常导致出现伪推理路径，而 RL 则是在促进真正的多模态推理！」

这个发现来自加州大学圣克鲁兹分校和德克萨斯大学达拉斯分校等机构的一个研究团队，他们深入探讨了「SFT+RL」这一经典范式在视觉语言模型开发中的适用性，其中重点关注了两个核心问题：1）SFT 与 RL 在多模态推理中分别产生何种独特作用？2）这种两阶段训练对 LVLM 的推理能力是否确有必要？

论文标题： SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
论文地址：https://arxiv.org/pdf/2504.11468
项目页面：https://ucsc-vlaa.github.io/VLAA-Thinking/

为系统性地研究这些问题，研究者构建了首个支持 SFT 与 RL 的全方位高质量图文推理数据集 VLAA-Thinking。下表给出了该数据集的统计数据。

与现有数据集不同，该数据集包含基于 R1 模型「先思考后回答」范式生成的完整推理链条，其中 SFT 分支包含适合视觉指令调优的多模态思维链（CoT）样本，强化学习分支则从同源数据中筛选更具挑战性的样本以激发深度推理行为。

为有效迁移纯文本模型的推理能力，研究者设计了六阶段数据处理流程：元数据收集→图像描述生成→基于 R1 的知识蒸馏→答案重写→人工验证→数据划分。

具体而言，他们将图像描述和视觉问题输入 DeepSeek-R1 生成初始推理轨迹，经改写优化流畅度后，再由 GPT 验证器进行质量把关，最终形成高质量的 SFT 与 RL 训练数据。

意料之外的发现

基于 VLAA-Thinking 数据集，研究者系统分析了 SFT 与 RL 在多模态推理中的作用机制。为探究 SFT 的影响，他们详细考察了数据类型（如是否包含反思性顿悟时刻，即 aha moment）、数据规模和模型能力等因素。

针对视觉语境下的 RL 优化，他们在 GRPO 框架中创新性地设计了融合感知与认知奖励的混合奖励函数，包含 2 大类 5 种子函数：规则类问题采用数字识别、多项选择题、数学运算和边界框检测函数，开放类问题则采用称职的奖励模型 XComposer-2.5-RM，以及基于参考的奖励方法来对答案进行评分。

研究者对 SFT 和 RL 进行了广泛的实验比较，发现了几个值得注意的问题：

首先，他们探究了 SFT 和 RL 在多模态推理中的贡献：与基础模型相比，SFT 提高了模型在标准任务中的性能，但在增强复杂推理方面能力却有所欠缺。如图 1 所示，仅仅通过 SFT 来模仿专家的思维往往会诱发「伪推理路径」，这是一种肤浅的推理模式，其中可能包含「伪 aha moment」（肤浅的自我反思线索）。

这项研究表明，这些模仿的推理模式会阻碍真正的推理进步，即在 7B 模型上相对性能下降 47%。这一观察结果也与最近的研究结果一致，即需要反馈和探索信号来驱动高级推理行为。此外，消融分析表明，对于基于规则的奖励，数学和多选题比其他奖励更有益，而基于规则和开放式奖励的结合则能得到最佳性能。

现有研究认为 LVLM 应先通过 SFT 学习推理格式，再通过 RL 反馈进行优化，但研究者发现：如果对已对齐的模型使用 SFT+GRPO，会导致平均 12.7% 的性能下降，且模型规模差异影响甚微 ——7B 模型与更小模型呈现相似的性能衰减。

训练过程分析表明，响应长度、奖励分数与性能表现无显著相关性：经 SFT 的模型虽能获得更高初始奖励和更长响应，但实际表现逊于纯 RL 训练模型，这与「更优模型通常产生更长响应」的既有结论相悖。

研究表明：SFT 虽可帮助未对齐模型遵循指令，但其倡导的模仿式推理会限制 RL 阶段的探索空间；相比之下，直接从奖励信号学习能产生更有效的适应性思维。实证研究表明纯 RL 方案更具优势 —— 该团队训练得到的 VLAA-Thinker-Qwen2.5VL-3B 模型在 Open LMM 推理榜单 4B 量级模型中位列第一，以 1.8% 优势刷新纪录。案例分析表明，该模型生成的推理轨迹更简洁有效。

使用混合奖励提升多模态推理

上面的结果表明 SFT 不足以将 R1 的能力迁移到 LVLM。于是，研究者提出了自己的方案。

由于强化学习在增强推理能力方面表现出色，且 GRPO 在文本数学推理任务中被证明比其他方法（如 PPO）更有效、更高效，这促使他们将 GRPO 训练应用于视觉语言推理任务。

数学上，设 q 为一个查询，为从旧策略模型 π_old 中采样的 G 个输出，GRPO 最大化以下目标：

其中，是估计的优势，β 是 KL 惩罚系数，π_θ、π_θ_old、π_ref 分别是当前、旧的和参考的策略。

带有混合奖励的 GRPO

为了更好地将 GRPO 应用于多模态推理，除了采用类似文本 GRPO 训练中的基于规则的奖励机制外，还需要考虑视觉模态引入的额外特征。受多模态大型语言模型综合评价基准 MME 的启发（MME 通过感知和认知（推理）来对视觉语言模型进行基准测试），研究者提出了一个用于 GRPO 训练的混合奖励框架，如图 4 所示。该奖励系统包含五种可验证的奖励类型，采用两种格式，涵盖了视觉感知和视觉推理任务。

SFT 对 GRPO 训练的影响

SFT 与多模态推理中的 GRPO 不兼容。尽管论文中揭示了单独使用 SFT 会导致多模态推理性能下降，但目前仍不清楚 SFT 是否像 DeepSeekR1 中的「金钥匙」一样对 GRPO 训练起到关键作用。研究者使用不同的模型架构进行 GRPO 训练实验。具体来说，他们采用了 Qwen2VL-7B-Base 和 Qwen2VL-7B-Inst，并在它们上使用 25K 样本进行 SFT，随后进行 GRPO 训练。

从表 3 中可以观察到，在 GRPO 训练之前进行 SFT 的模型，其性能比仅使用 GRPO 训练的模型更差，平均而言，Qwen2VL-Base 和 Qwen2VL-Inst 在经过 SFT 后比未经过 SFT 的模型性能下降了 8.9%。研究者还发现，SFT 对指令模型的性能损害比对没有指令跟随能力的基础模型更大。例如，经过 SFT 后，Qwen2VL-Inst 的性能比 Qwen2VL-Base 下降了 7.7%，这表明 SFT 可能会削弱对有效 GRPO 训练至关重要的指令跟随能力。

综合这些结果，可以得出结论：在多模态推理的背景下，SFT 目前与 GRPO 不兼容，会损害基础模型和经过指令调优的 LVLM 的性能。

此外，研究者还发现，较小的 SFT 数据集仍然会影响 GRPO 的性能，如图 5 所示。

回应长度、奖励与模型性能并非必然相关。先前的强化学习研究通常认为，更长的回应往往与更好的推理能力以及更高的 RL 奖励相关。然而，图 6 中的发现表明，在 GRPO 中，回应长度和奖励并不是推理能力的可靠指标。

有趣的是，经过 SFT 的模型在训练初期的奖励更高。这可能是由于它们在早期通过监督学习获得了经验，因为 SFT 和 GRPO 数据共享相同的分布。然而，这些经过 SFT 的模型在训练过程中奖励提升有限，而仅使用 GRPO 的模型则迅速超过了它们。

这些趋势进一步揭示，SFT 仅提供了 RL 训练的一个更高的「下限」，但它可能会降低「上限」，因为推理相关的 SFT 数据限制了模型的探索路径。因此，推理是一种内生的、更可能通过强化学习而非 SFT 发展起来的能力。尽管经过 SFT 的模型可能看起来在进行推理，但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。

无 SFT 的 GRPO 训练

根据前一节的发现，研究者直接进行了 GRPO 训练，生成了四个模型：VLAA-Thinker-Qwen2-VL-2B、VLAA-Thinker-Qwen2-VL-7B、VLAA-Thinker-Qwen2.5-VL-3B 和 VLAA-Thinker-Qwen2.5-VL-7B。他们还在 Qwen2-VL-7B 的基础模型上进行了训练，得到的模型命名为 VLAA-Thinker-Qwen2-7B-Zero。

表 4 中展示了评估结果：