大家好,我是肆〇柒。本文想和大家分享一篇来自 NVIDIA 研究团队的前沿论文——《ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models》。这篇论文挑战了强化学习在大型语言模型(LLM)中作用的传统认知,还提出了一种创新的训练方法 ProRL,通过长时间的强化学习训练,显著提升了模型的推理能力。文中 ProRL 的实践用例,Reasoning Gym 的 boxnet 任务和 graph_color 任务,强化学习后的模型展现了出色的表现,这类基础模型未见任务通过 ProRL 强化学习展现出的泛化能力,很是亮眼。这个研究成果为模型 Post train 提供了新的思路,也为我们理解模型推理边界的拓展提供了深刻的见解。下面,我们一起来看看NVIDIA的这个研究它说了什么。
推理能力的崛起与强化学习的关键角色
近来,大型语言模型(LLM)在推理任务上的表现令人瞩目。以 OpenAI-O1 和 DeepSeek-R1 为代表的模型,通过强化学习(RL)技术,在数学问题求解、代码生成等复杂任务上取得了显著进展。而模型推理能力的提升,对于解决实际应用中的复杂问题至关重要,它使得模型能够更好地理解和处理复杂的逻辑关系和多步骤任务。
强化学习作为一种训练范式,通过与环境的交互不断优化模型的决策过程,成为了提升模型推理能力的关键技术之一。与传统的监督学习不同,强化学习通过优化可验证的目标奖励,而非依赖于学习型奖励模型,从而有效避免了奖励欺骗(reward hacking)问题,并使模型更紧密地与正确的推理过程对齐。例如,在数学问题求解中,模型通过强化学习能够学会逐步验证中间结果的正确性,而不是直接跳跃到最终答案,从而提高了答案的准确性和可靠性。
强化学习是能力拓展还是输出放大?
尽管强化学习在提升模型推理性能方面取得了显著成效,但学术界对其作用机制仍存在激烈争论。一个核心问题是:强化学习究竟是帮助模型拓展了新的推理能力,还是仅仅放大了基础模型中已潜在存在的高回报输出?换句话说,强化学习是否只是优化了模型在训练数据上的表现,而未真正提升其应对新问题和复杂场景的能力?
先前的研究表明,基于强化学习的模型可能并未获得超越基础模型的新推理能力。例如,有研究指出,某些经过强化学习训练的模型在特定数学任务上的表现提升,实际上是因为模型在训练过程中反复接触了类似问题,从而记住了问题模式和答案,而非真正理解了问题背后的数学原理。这种现象引发了对强化学习方法的质疑,即其是否仅是一种“表面优化”,而非实质性的能力提升。
然而,研究者们认为这些结论可能受限于研究方法的局限性。一方面,现有研究对特定领域(如数学)的过度依赖可能导致结果偏向性。在这些领域,模型在预训练和后续训练阶段往往接受了大量相关数据的训练,从而限制了其探索新领域和新问题的潜力。另一方面,强化学习训练的提前终止也是一个关键因素。大多数研究仅进行了有限的强化学习训练步骤(通常不超过数百步),这不足以让模型充分探索和开发新的推理策略。例如,某些复杂的逻辑推理任务可能需要数千步的训练才能显现效果,而过早停止训练可能导致对强化学习潜力的低估。
挑战传统观点,提出ProRL方法
ProRL就在挑战上述观点,证明通过长时间的强化学习训练(ProRL),可以挖掘出基础模型无法触及的新型推理策略,从而显著提升模型的推理能力。为此,研究者们提出了ProRL训练方法,该方法通过引入多种创新机制,解决了强化学习训练中的关键挑战,实现了模型推理能力的持续拓展。
ProRL方法的核心贡献包括:
1. 引入KL散度控制,防止模型输出分布过早集中,维持探索多样性;
2. 定期重置参考策略,打破路径依赖,避免模型陷入局部最优解;
3. 构建多样化的任务组合,涵盖数学、代码、STEM、逻辑谜题和指令遵循等多个领域,促进模型泛化能力的提升。
通过这些创新,ProRL 提升了模型在已知任务上的表现,还使其能够在未见过的复杂任务中展现出超越基础模型的推理能力,为大型语言模型的推理能力发展开辟了新的路径。
我们先看看ProRL训练的综合效果,如下图所示:
长期强化学习(ProRL)的优势
ProRL 方法论:核心算法与训练挑战的应对
核心强化学习算法 - GRPO:优化策略的新途径
在 ProRL 方法中,Group Relative Policy Optimization(GRPO)作为核心的强化学习算法,为模型的训练提供了有力支持。GRPO 算法与传统的近端策略优化(PPO)相比,具有独特的特点和优势。GRPO 去除了价值模型,转而基于组分数估计基线,通过概率比率和组分数来优化策略。这样以来,简化了模型架构并提高了训练效率。GRPO 的目标函数就是为了最大化策略的相对优势,其公式如下:
GRPO通过这种方式,利用组内样本的相对优势来指导策略更新,避免了对单一价值模型的依赖。例如,在一个包含多个数学问题的批次中,模型会根据每个问题在批次内的相对难度和解决情况来调整策略,而不是依赖于绝对的价值估计。这种相对优势的评估方式,使得GRPO在处理多样化任务时更加稳健,能够更好地捕捉任务间的差异和联系。
应对长时间训练挑战:熵崩溃与参考策略重置的解决方案
熵崩溃现象及其解决方案
在长时间的强化学习训练中,模型面临着一系列挑战,其中熵崩溃是一个关键问题。熵崩溃指的是模型的输出分布过早地变得过于集中在某些特定输出上,导致模型的探索能力急剧下降,从而限制了策略优化的空间,使得模型难以发现新的有效路径。
为了解决这一问题,ProRL 方法采用了多种策略。
1️⃣ 首先,增加采样温度是一种简单而有效的方法,它能够在训练初期增加输出的多样性,从而延迟熵崩溃的发生。然而,这种方法并不能从根本上解决问题,因为随着训练的进行,熵仍然会逐渐下降。
2️⃣ 然后,ProRL 引入了解耦裁剪(Decoupled Clip)和动态采样(Dynamic Sampling)策略。ProRL借鉴了Decoupled Clip and Dynamic Sampling Policy Optimization(DAPO)算法中的解耦裁剪和动态采样策略。(扩展阅读👉🏻:《LLM 强化学习的开源新力量:字节跳动 DAPO 算法》)解耦裁剪通过分别设置上下界来灵活控制概率比率的范围,公式如下:
动态采样则通过过滤掉模型已经能够持续成功或失败的样本,专注于中等难度的样本,从而维持多样化的学习信号。例如,在数学问题求解中,模型会逐渐忽略那些总是正确或总是错误的问题,转而集中精力优化对部分正确的问题的处理策略。
3️⃣ 还有一点,KL 正则化(KL Regularization) 也是 ProRL 中解决熵崩溃的重要手段。通过在损失函数中加入 KL 散度惩罚项,限制当前策略与参考策略之间的 KL 散度,可以有效地维持输出的多样性。这有助于缓解熵崩溃,并且能够防止模型在训练过程中偏离稳定的参考策略过远,从而提高训练的稳定性。
参考策略重置:打破路径依赖,激发持续探索能力
参考策略重置是ProRL的另一关键创新。随着训练的进行,KL惩罚项可能逐渐主导损失函数,导致策略更新变得微不足道。为缓解这一问题,ProRL引入了参考策略重置技术。定期将参考策略硬重置为在线策略的较新快照,并重新初始化优化器状态。这种重置策略打破了模型在训练过程中的路径依赖,避免其陷入局部最优解,从而激发模型的持续探索能力,为发现新的推理路径创造条件。
重置的时机选择至关重要。通常在验证性能停滞或下降时进行重置,这不仅恢复了训练的稳定性,还为模型提供了调整训练方向的机会。例如,在训练过程中,当模型在数学问题求解上的验证准确率连续多个步骤未提升时,触发重置操作。重置后,模型能够基于新的参考策略重新探索问题空间,发现新的推理路径。这种动态调整机制使得ProRL能够在长时间训练中保持高效的学习和优化能力。
Nemotron-Research-Reasoning-Qwen-1.5B 模型:ProRL的实践范例
模型概述:1.5B参数模型的突破
Nemotron-Research-Reasoning-Qwen-1.5B 是一个基于 ProRL 方法训练的通用推理模型,它在多个领域展现了卓越的推理能力。该模型拥有 1.5B 参数规模,训练数据集涵盖了数学、代码、STEM、逻辑谜题和指令遵循等 136K 个问题,这些多样化的任务为模型提供了丰富的学习环境,使其能够适应各种不同的推理需求。训练数据的详细信息如下表所示:
实验中使用的训练数据概述
精细化的训练参数与资源调配
Nemotron-1.5B的训练基于verl强化学习训练框架,并对GRPO算法进行了多项增强。具体设置如下:
- 解耦裁剪超参数:设置低裁剪界限为0.2,高裁剪界限为0.4,以平衡稳定性和探索性。
- 动态采样:过滤掉准确率为1或0的样本,专注于中等难度样本,维持多样化的学习信号。
- 采样温度:设置为1.2,提高初始探索的多样性。
- 批量大小与小批量大小:批量大小为256,小批量大小为64,每个采样步进行4次梯度更新。
- 优化器与学习率:采用AdamW优化器,学习率为2×10⁻⁶。
- 硬件资源:使用4个8×NVIDIA-H100-80GB节点进行训练,总训练时间为约16k GPU小时。
例如,在训练过程中,模型通过动态采样策略,能够实时调整训练样本的分布。当模型在代码生成任务上表现出对某些简单算法的高掌握度时,系统会自动减少这些样本的比例,转而增加对复杂算法问题的采样,从而确保训练过程始终聚焦于提升模型的薄弱环节。
验证集监控与性能提升机制
为了确保训练的有效性和模型的持续改进,研究人员通过一个混合验证集来监控训练进展。这个验证集涵盖了多个关键任务,包括 AIME2024、Codeforces、GPQA-diamond、IFEval 和 Reasoning Gym 中的 graph_color 任务。在训练过程中,当验证性能停滞或下降时,会触发参考模型和优化器的硬重置。这种策略既恢复了训练的稳定性,又可为模型提供新的学习动力,使其能够继续探索和优化。
训练过程中,响应长度与验证分数之间呈现出一定的正相关性。随着训练的进行,模型在生成更长的推理路径时,验证分数也随之提高。这表明模型在逐渐理解复杂任务的结构,并不断优化其推理策略。尽管如此,也有阶段出现验证性能的提升并未伴随着响应长度的显著增加,这说明模型在优化过程中可能更多地依赖于推理质量的提升,而非单纯的推理步骤数量的增加。
ProRL训练过程中的动态变化如下图所示:
ProRL训练动态
实验评估:性能比较与泛化能力验证
评估基准与设置
为全面评估Nemotron-1.5B模型的性能,研究者选择了涵盖多个领域的任务和基准测试:
- 数学:包括AIME2024、AIME2025、AMC等,评估模型在数学问题求解上的能力。
- 代码:涵盖APPS、Codecontests、Codeforces等,测试模型的代码生成和算法设计能力。
- STEM推理:使用GPQA Diamond,评估模型在科学、技术、工程和数学领域的推理能力。
- 指令遵循:通过IFEval测试模型对指令的准确理解和执行能力。
- 逻辑谜题:利用Reasoning Gym中的任务,评估模型在逻辑推理和问题解决方面的能力。
评估设置采用了vllm作为推理后端,采样温度为0.6,核采样(top_p)为0.95,最大响应长度为32k。对于数学、代码和STEM推理任务,通过从每个基准测试的提示中严格获取二元奖励来估计pass@1;对于逻辑谜题和指令遵循任务,则计算基于规则验证器的平均连续奖励分数。
性能比较结果:显著提升的模型表现
实验结果显示,Nemotron-Research-Reasoning-Qwen-1.5B 模型在各个任务基准测试中均显著优于其基础模型 DeepSeek-R1-Distill-Qwen-1.5B,以及与更大参数规模的模型 DeepSeek-R1-Distill-Qwen-7B 相比也表现出色。在数学领域,平均性能提升达到 15.7%;在代码领域提升 14.4%;在 STEM 推理领域提升 25.9%;在指令遵循任务中提升 22.0%;在逻辑谜题任务中提升 54.8%。这些结果有力地证明了 ProRL 训练方法在提升模型推理能力方面的显著效果。
数学领域基准测试的性能(pass@1)比较代码生成任务的性能比较结果如下表所示:
在代码基准测试中的性能(pass@1)比较
STEM推理、指令遵循和逻辑谜题任务的性能比较结果如下表所示:
在STEM推理(GPQA Diamond)、指令遵循(IFEval)和逻辑谜题(Reasoning Gym)任务上的性能比较
以数学任务为例,上表数据领域基准测试中显示了 Nemotron-Research-Reasoning-Qwen-1.5B 模型在 AIME24、AIME25、AMC 等任务中的表现。在 AIME24 任务中,模型的 pass@1 分数达到了 48.13%,相较于基础模型的 28.54% 有了显著提升;在 AIME25 任务中,pass@1 分数从基础模型的 22.71% 提升至 33.33%;在 AMC 任务中,模型的 pass@1 分数更是高达 79.29%,远超基础模型的 62.58%。这些数据表明,ProRL 训练方法在数学推理任务中能够有效地挖掘模型的潜力,提升其解决复杂问题的能力。
泛化能力评估:未见任务上的卓越表现
Nemotron-1.5B在未见过的推理任务(如Reasoning Gym中的OOD任务)上表现出了强大的泛化能力。例如,在acre、boxnet和game_of_life_halting任务上,模型取得了显著改进。在boxnet任务中,基础模型在训练过程中从未接触过该任务,因此无法产生任何正确的解决方案。而经过ProRL训练的Nemotron-1.5B模型却能够成功解决问题,实现了从无到有的能力突破,这表明模型在训练过程中形成的通用推理框架和模式识别能力,使其能够快速适应新任务的结构并应用相应的推理策略。
模型在未见任务boxnet上的推理边界扩展情况如下图所示:
为OOD任务的BoxNet扩展推理边界
此外,在graph_color任务中,研究人员通过生成不同节点数量的图问题来评估模型对任务难度变化的适应能力。尽管训练数据仅包含10个节点的图,但模型在测试更大规模图(如15个节点和20个节点)时,仍然能够保持显著高于基础模型的准确率。例如,在15个节点的图上,Nemotron-1.5B的pass@1准确率为0.185,而基础模型则为0.002;在20个节点的图上,Nemotron-1.5B的准确率为0.064,基础模型则为0.001。这种对未见复杂场景的适应能力,进一步证明了ProRL训练方法在提升模型泛化能力方面的有效性。
模型在不同规模图着色任务上的泛化能力如下图所示:
ProRL在图着色任务难度提升的情况下具有泛化能力
ProRL 是否激发新的推理模式分析
初始能力与提升效果的关系:负相关现象的揭示
实验结果揭示了ProRL在扩展模型推理边界方面的有效性与基础模型初始能力之间的显著负相关关系。具体而言,基础模型初始性能越低的任务,ProRL带来的提升越显著。例如,在逻辑谜题任务中,基础模型DeepSeek-R1-Distill-Qwen-1.5B的初始pass@128准确率较低,而经过ProRL训练后,Nemotron-1.5B在该任务上的准确率显著提升,某些子任务甚至实现了从接近0到接近100%的飞跃。
这种现象的机理在于,初始能力较低的任务往往具有更广阔的探索空间,模型在这些任务上尚未形成固化的推理模式。因此,强化学习能够更容易地引导其发现新的有效路径。例如,在一些复杂的数学证明任务中,基础模型可能仅掌握了部分基础定理的应用,而ProRL训练通过鼓励模型探索不同的证明思路和定理组合,使其能够找到更完整的解决方案。相比之下,对于基础模型已经表现较好的任务,如某些简单的算术运算,ProRL的提升空间相对较小,因为模型在这些任务上的推理模式已经较为成熟和稳定。
ProRL在不同任务上的效果与基础模型初始能力的关系如下图所示:
左图: ProRL在那些基础模型最初表现不佳的任务上,最有效地扩展了模型的推理边界。 右图: 在强化学习(RL)之后收益最小的任务(在圆圈中突出显示)往往具有较低的创造力指数,这表明它们与预训练数据的重叠度更高
推理边界变化模式:Diminished、Plateau与Sustained的分类分析
根据pass@k的演变趋势,任务可分为以下三种类型:
1. Diminished(推理能力下降):在某些基准测试中,尽管pass@1有所提升,但pass@128(反映更广泛的推理能力)却出现下降或保持不变。这些任务通常具有较高的初始pass@128准确率,表明基础模型在这些任务上已经具备较强的推理能力。ProRL训练可能使模型在输出分布上过于集中,从而限制了其探索多样化的推理路径。例如,在某些简单的数学运算任务中,模型可能过度优化了对常见问题模式的快速响应,而忽略了对更复杂或变体问题的处理能力。
2. Plateau(早期饱和):对于这类任务,ProRL训练在早期阶段显著提升了pass@1和pass@128,但随着训练的进行,提升逐渐趋于平缓。这表明模型在这些任务上已经达到了其学习潜力的上限。例如,在一些中级难度的编程任务中,模型可能在掌握了一定数量的算法模板后,难以进一步突破,因为任务本身对特定领域知识的依赖程度较高,而模型在这些知识上的扩展能力有限。
3. Sustained(持续提升):某些任务在整个训练过程中持续展现出推理能力的提升,这表明ProRL能够不断挖掘新的推理策略。这些任务通常对通用推理策略的适应性较强,例如复杂的代码生成任务或逻辑谜题。以Codeforces中的某些高级算法问题为例,模型通过ProRL训练逐渐学会了如何将问题分解为多个子任务,并灵活运用不同的数据结构和算法进行组合,从而在训练后期仍能取得显著的性能提升。
pass@k比较如下图所示:
Pass@k 比较基础模型、中间检查点模型以及最终的强化学习训练模型
对未见任务和复杂问题的泛化能力:boxnet与graph_color任务的案例分析
Nemotron-Research-Reasoning-Qwen-1.5B 模型在未见任务和复杂问题上的泛化能力得到了充分验证。以 Reasoning Gym 中的 boxnet 任务和 graph_color 任务为例,模型展现了出色的表现。在 boxnet 任务中,模型需要指导代理在网格环境中移动彩色盒子到对应的目标位置。这一任务要求模型具备路径规划、资源分配和冲突解决等多种推理能力。尽管该任务未包含在训练数据集中,但模型仍然能够成功地生成有效的解决方案,这表明其在训练过程中形成的通用推理能力可以迁移到全新的任务场景中。
同样,在 graph_color 任务中,模型需要为不同规模的图分配颜色,使得相邻节点的颜色不相同。这一任务的难度随着图规模的增大而增加,但模型在训练过程中逐渐学会了如何识别图的结构特征,并应用有效的着色策略。实验结果显示,模型在测试包含 10 个节点的图时表现良好,而在面对更大规模的图时,其性能依然保持稳定且优于基础模型和其他相关模型。这进一步证明了 ProRL 训练方法在提升模型泛化能力方面的有效性。
pass@1 分布的演变:性能提升的微观视角
ProRL训练过程中,pass@1分布的变化直观地反映了模型推理能力的提升。在训练初期,模型的pass@1分布往往集中在较低值附近,且长尾分布明显,表明模型在大多数任务上表现不佳,只有少数任务能够取得较高的准确率。随着训练的进行,分布逐渐向右移动,更多任务的pass@1值显著提高,且分布变得更加集中,表明模型在更多样化的任务场景下能够稳定地提供有效的解决方案。
例如,在代码生成任务中,模型在训练初期对复杂算法问题的解决能力非常有限,pass@1值接近于零。但经过ProRL训练后,其分布显著右移,许多代码任务的pass@1值提高到0.5以上,甚至部分任务接近1.0。这种分布演变表明,ProRL通过扩展预期pass@1,克服了方差增加带来的负面影响,从而实现了性能的持续提升。模型在训练过程中逐渐学会了在更多样化的场景下应用有效的推理策略,提高了对复杂问题的适应性和解决能力。
pass@1分布的演变如下图所示:
以family_relationships任务为例,该任务要求模型根据家庭关系描述确定人物之间的具体关系。在训练初期,模型的pass@1分布非常分散,且大部分样本的准确率接近于零。经过ProRL训练后,分布显著向右移动,形成了一个以高准确率为主的集中分布。这表明模型在训练过程中逐渐掌握了家庭关系推理的关键模式,如代际关系、婚姻关系等,并能够灵活应用这些模式来解决各种复杂的关系问题。
推理模型的发展与RL推理边界拓展的研究
推理模型的发展:从O1到ProRL的技术演进
推理模型的发展历程见证了人工智能领域在模拟人类逻辑思维方面的不懈努力。从OpenAI的o1系列模型首次引入详细链式思考(CoT)的概念,到DeepSeek和Kimi等模型采用强化学习进行训练,这一领域经历了快速的技术迭代和创新。例如,o1模型通过扩展测试时的计算资源,实现了长链式思考,使得模型能够在解决复杂数学问题时模拟人类的逐步推理过程。而DeepSeek-R1模型则进一步优化了强化学习算法,提升了在代码生成和逻辑推理等任务上的表现。
ProRL方法在这一演进过程中展现了独特的创新。与传统方法相比,ProRL通过长时间稳定的强化学习训练,可以提升模型在已知任务上的表现,还能够让模型在未见过的复杂任务中展现出超越基础模型的推理能力。例如,ProRL在训练数据集的构建上更加注重任务的多样性,涵盖了数学、代码、STEM、逻辑谜题和指令遵循等多个领域,从而促进了模型泛化能力的提升。此外,ProRL通过引入KL散度控制、参考策略重置等机制,解决了强化学习训练中的关键挑战,实现了模型推理能力的持续拓展。
RL 推理边界拓展的相关研究:从成功案例到质疑与回应
强化学习在实现超越人类性能方面有着诸多成功案例,如 DeepQ 网络在 Atari 游戏中的应用、AlphaGo 和 AlphaZero 在围棋领域的突破等。这些案例中的强化学习通过不断的自我对弈和策略优化,成功地挖掘出了新的策略和技巧,从而超越了人类玩家的水平。然而,对于大型语言模型(LLM)而言,关于强化学习是否真正提升其推理能力的质疑声也未曾停止。一些研究认为,强化学习可能只是放大了模型在预训练阶段已经学到的模式,而并未真正扩展其推理边界。
与这些质疑观点不同,ProRL 方法通过实证研究和技术创新,证明了强化学习在 LLM 推理能力提升中的有效性。ProRL 通过长时间的稳定训练和多样化的任务组合,引导模型探索新的推理路径,从而实现了超越基础模型的性能提升。这一成果为强化学习在 LLM 推理能力提升中的应用提供了有力证据,也为未来的研究提供了新的方向。
技术挑战
局限性:计算资源、可扩展性与训练复杂性的权衡
尽管 ProRL 方法在提升模型推理能力方面取得了显著成果,但它并非没有局限性。首先,ProRL 方法对计算资源的需求较高,这可能限制了其在资源受限环境中的应用。例如,训练 Nemotron-Research-Reasoning-Qwen-1.5B 模型需要大量的 GPU 卡时和高性能计算设备,这对于一些小型研究团队或个人开发者来说可能难以承受。训练过程中内存占用较高,通信开销较大,进一步加剧了资源需求。
其次,ProRL 方法在更大模型上的可扩展性仍面临挑战。随着模型参数规模的增加,训练的复杂度和计算成本会显著上升,同时模型训练的稳定性也可能受到影响。例如,更大的模型可能需要更复杂的模型并行策略和更高效的梯度同步机制。此外,分布式训练架构的设计和优化也是实现更大模型 ProRL 训练的关键。模型压缩技术,如量化和剪枝,可以有效降低模型的存储和计算需求,从而提高 ProRL 方法的可扩展性。
此外,ProRL 的训练过程相对复杂,涉及到参考策略重置和优化器参数重置等操作。这些操作对训练的稳定性和结果的可重复性产生一定影响。例如,重置参考策略的时机和频率需要精心选择,以避免对训练进程造成不必要的干扰。实验数据表明,不同的重置策略会导致训练曲线的显著差异。结合早停策略和学习率调整策略可以有效平衡训练的稳定性和复杂性。早停策略可以在验证性能不再提升时及时终止训练,避免资源浪费,而学习率调整策略则可以根据训练进度动态调整学习率,以适应不同的训练阶段。
最后,尽管评估涵盖了多个领域,但训练数据集在任务覆盖范围上仍存在不足之处。在某些特定领域的任务深度和广度不够,可能导致模型在这些领域的泛化能力有限。例如,在专业性较强的领域(如特定学科的高级数学问题、专业领域的代码生成等),模型可能表现出一定的局限性。这是因为训练数据集中缺乏足够的样本来覆盖这些领域的复杂性和多样性。
ProRL训练过程中的KL散度变化如下图所示:
跨训练运行的KL散度
阅读后的感想与总结
读完 ProRL 论文,我对强化学习提升大型语言模型推理能力有了更清晰的认识。ProRL 方法的创新性令人印象深刻,其采用的 GRPO 算法舍弃传统 PPO 的价值模型,基于组分数估计基线优化策略,使模型能更好地处理多样化任务,例如面对一批不同难度的数学问题,模型可依据问题在批次内的相对难度和解决情况灵活调整策略,体现了训练方法的灵活性和高效性。
ProRL 引入的 KL 散度控制和参考策略重置等创新策略相互协作,有效攻克强化学习训练难题。KL 散度控制维持模型输出多样性,避免过早陷入局部最优解;参考策略重置为模型持续探索新推理路径提供保障。例如在逻辑谜题任务中,通过限制当前策略与参考策略之间的 KL 散度,模型避免过度集中在常见解题模式上,积极探索新的解题步骤组合,提高了推理的多样性和有效性。
从实验结果来看,Nemotron-Research-Reasoning-Qwen-1.5B 模型在多个领域的推理任务中实现了显著的性能提升,直观展示了 ProRL 的强大威力。进一步分析发现,模型在不同任务上的提升程度与任务本身的特性和基础模型的初始能力密切相关。对于基础模型初始性能较低的任务,如逻辑谜题中的某些子任务,ProRL 带来的提升尤为显著,这表明初始性能较低的任务往往具有更广阔的探索空间,强化学习能更容易地引导其发现新的有效路径。
ProRL 方法挑战了以往对强化学习局限性的传统认知。与以往一些研究相比,ProRL 通过长时间的稳定训练和多样化的任务组合,证明了强化学习可以引导模型探索新的推理路径,实现超越基础模型的性能提升。例如,ProRL 在训练数据集构建上更加注重任务的多样性,涵盖多个领域,促进了模型泛化能力的提升,而且那个基模未见任务的“着色案例”也让我印象深刻。以往方法可能在任务多样性上有所欠缺,限制了模型的泛化性能。此外,ProRL 引入的创新机制有效解决了强化学习训练中的关键挑战,如熵崩溃和训练不稳定等,这是其相较于以往方法的优势所在。
然而,ProRL 方法仍面临诸多挑战,如高计算资源需求和训练复杂性等,这些问题提醒我们要在技术进步与实际应用之间寻求平衡。例如,训练 Nemotron-Research-Reasoning-Qwen-1.5B 模型需要大量的 GPU 卡时和高性能计算设备,这限制了其在资源受限环境中的应用。同时,ProRL 的训练过程相对复杂,涉及到参考策略重置和优化器参数重置等操作,对训练的稳定性和结果的可重复性产生一定影响。
参考资料
- ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models.
https://arxiv.org/pdf/2505.24864
- nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
- OpenAI O1 System Card.
https://arxiv.org/pdf/2412.16720
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.
https://arxiv.org/pdf/2501.12948
- An Open-Source LLM Reinforcement Learning System at Scale.
https://arxiv.org/pdf/2503.14476
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.
https://arxiv.org/pdf/2402.03300