大家好,我是肆〇柒。在当下,大型语言模型(LLM)正以其卓越的能力在诸多任务中引人瞩目。这些能力的提升,很大程度上得益于在大规模文本数据上的 next-token-prediction 自监督学习范式。通过预测文本中的下一个 token,LLM 能够学习到语言的复杂模式和语义关系,从而在文本生成、问答系统、机器翻译等任务中取得显著成果。
然而,随着对模型性能要求的不断提高,强化学习(RL)逐渐成为微调 LLM 的关键技术。它能够使模型更好地对齐人类偏好,或者提升特定技能,如复杂推理等。但 RL 在实际应用中面临诸多挑战:一方面,基于人类反馈的强化学习(RLHF)严重依赖昂贵的人类偏好数据,这不仅限制了其可扩展性,还可能导致奖励劫持问题;另一方面,基于可验证奖励的强化学习(RLVR)虽能避免一些奖励劫持问题,却因标注数据的稀缺性,难以在通用预训练场景中广泛应用。
我曾在觉察流的社区群里提到过,o3 的一些能力非常强,甚至在跨领域知识的问答方面也很出彩。当时我有一个猜想,它怎么做到的?我的答案是,它可能在预测 CoT,而今天看到了这篇来自微软研究院、北京大学和清华大学研究团队的论文《Reinforcement Pre-Training》,让我对这一点猜测又确信了几分。
鉴于刚才所提到的挑战,这篇论文所论述的强化预训练(Reinforcement Pre-Training,RPT)被提出。RPT 为了弥合可扩展自监督预训练与强化学习优势之间的差距,创新性地将 next-token-prediction 任务重构为 next-token-reasoning 任务,利用大量无标注文本数据进行通用目的强化学习。这既能够显著提升语言建模的准确性,也为后续的强化微调奠定了坚实基础,有望推动 LLM 向更智能、更通用的方向发展。
RPT 的核心概念:从预测到推理的认知进化
RPT 基本原理:next-token-prediction 的重构
RPT 的核心思想在于对传统的 next-token-prediction 进行重构,将其转变为一个推理任务。在常规的 next-token-prediction 中,模型仅仅是基于前面的文本信息直接预测下一个 token,这种方式主要侧重于学习文本表面的模式和关联。然而,RPT 引入了截然不同的机制,它要求模型必须先生成一个推理序列,再进行下一个 token 的预测。这一过程极具创新性,类似于人类在面对问题时的思考过程,即先分析已有的信息,进行一系列的推理和思考,然后再得出结论。
例如,当模型在处理一段关于物理定律的文本时,若要预测下一个 token,它并非直接根据已有的词频统计等简单模式来进行预测,而是需要先理解前面文本中提到的物理概念、定律的适用条件等关键信息。然后,基于这些理解,生成诸如 “考虑到作用在物体上的力与质量的关系,接下来可能会提及加速度” 等推理序列,最终再确定下一个 token 是 “加速度” 或其他相关词汇。通过这种方式,模型能够深入挖掘文本背后的语义和知识,而不仅仅停留在表面的 token 级相关性上。
RPT 的多重优势
可扩展性和通用性 :RPT 实现了在无标注文本数据上的通用目的强化学习,这是一次重大的突破。传统上,强化学习在 LLM 中的应用往往受限于数据的标注要求,无论是基于人类反馈的数据还是带有可验证答案的标注数据,都难以大规模获取。然而,RPT 完全依赖于无标注的文本数据,这意味着它可以充分利用互联网上海量的文本资源。无论是新闻报道、学术文献,还是社交媒体上的帖子等各种文本数据,都可以成为 RPT 的训练素材。这极大地拓展了模型训练的数据来源,使其能够涵盖各种不同的领域、主题和语言风格,为 LLM 的通用性提供了坚实的数据基础。例如,利用大量的文学作品训练 RPT 模型,使其能够更好地理解和生成具有文学风格的文本,如小说创作、诗歌生成等;在技术文档领域的应用,则有助于模型准确地理解和生成复杂的代码文档、技术报告等内容。
降低奖励劫持风险 :在强化学习中,奖励劫持一直是一个令人头疼的问题。一些复杂的、基于学习的奖励模型可能会出现漏洞,模型可能会利用这些漏洞来获取高奖励,而并非通过真正有价值的学习行为。RPT 则巧妙地避免了这一问题,它采用直接的规则奖励信号,即根据预测的正确性给予奖励。这种奖励机制简单而有效,只关心模型预测的下一个 token 是否与实际文本匹配,而不涉及复杂的、容易被操纵的奖励模型。例如,在预测数学问题解答文本中的下一个 token 时,只有当模型准确地预测出正确的数学符号或概念词汇时,才会获得奖励。这使得模型能够专注于学习真正有价值的推理和预测能力,确保训练过程的稳定性和目标的准确性。
促进泛化而非死记硬背 :RPT 通过鼓励模型生成推理序列,促使模型深入理解文本背后的逻辑和知识。这种方式使得模型能够跳出单纯的记忆模式,转而培养起强大的泛化能力。在传统的训练方式下,模型可能会倾向于记忆训练数据中的常见表达模式和 token 顺序,从而在面对新的、未见过的文本时表现不佳。而 RPT 则引导模型在训练过程中主动思考文本的内在逻辑和语义关系,探索多种可能的推理路径。例如,在处理一段关于历史事件的文本时,模型不会仅仅记住某个历史事件的固定表述,而是会思考事件发生的原因、影响等相关因素。这样一来,当遇到关于同一历史时期但不同具体事件的文本时,模型也能够基于已有的知识和推理能力进行准确的预测和理解,大大增强了其在不同文本场景下的适应性和泛化性能。
提升推理过程中的计算资源分配效率 :RPT 在预训练阶段就巧妙地引入了推理过程,这相当于为模型分配了更多的 “思考” 时间。在传统的训练方式中,模型主要侧重于对下一个 token 的直接预测,而在 RPT 中,模型需要先进行推理序列的生成,然后再进行预测。这个过程使得模型在训练时就能够充分地利用计算资源,对每个 token 的预测进行更深入的思考和分析。类似于在推理时扩展(inference-time scaling)中为每个预测分配更多的计算资源来提升准确性,RPT 将这种计算资源的高效利用提前到了训练阶段。例如,在训练过程中,模型可能会花费更多的计算资源来分析上下文中的关键信息、探索多种可能的推理路径等,从而在训练完成后,能够在推理过程中更快速、更准确地进行预测,提高整体的性能表现。
RPT 的方法论:构建智能模型的精巧架构
预训练任务:next-token-reasoning
任务定义与推理序列生成算法
具体生成算法如下:
1. 初始化 :以输入序列为起点,模型首先对上下文进行编码,提取关键语义信息。这一步骤就像人类在阅读一篇文章时,先快速浏览开头部分,对文章的主题和大致方向有一个初步的把握。例如,当输入的上下文是关于物理定律的描述时,模型会识别出其中涉及的物理概念、定律的名称等关键信息,为后续的推理和预测奠定基础。
2. 迭代推理 :在每一步推理中,模型基于当前上下文和已生成的推理序列,生成下一个推理 token。这一过程会考虑语义连贯性、语法正确性以及与最终预测目标的相关性。例如,在处理数学问题时,模型可能会生成诸如 “考虑变量之间的关系”“应用定理公式” 等推理 token。这就好比人类在解决数学问题时,会一步步地分析问题的条件、应用相关的数学定理和公式,逐步向答案靠近。每一个推理 token 都是模型思考过程中的一个 “脚印”,记录着它对问题的逐步深入理解。
3. 预测生成 :在完成推理序列后,模型基于推理序列和原始上下文,生成对下一个 token 的预测。预测过程会综合推理序列中的信息,以确定最可能的 token。以数学问题为例,经过一系列的推理 token 后,模型可能会预测下一个 token 是某个数学符号或特定的数值,这个预测结果是基于前面的推理过程得出的,具有较高的可信度和准确性。
4. 算法终止 :当达到预设的推理序列长度或满足特定终止条件(如预测置信度超过阈值)时,算法终止,输出推理序列和预测 token。终止条件的设置是为了在推理的充分性和计算效率之间取得平衡,确保模型能够在合理的时间和计算资源内完成任务。
我们可以通过一个形象的比喻来理解 RPT 的这一创新过程:如果传统的 next-token-prediction 是在黑暗中直接猜测下一步的位置,那么 RPT 的 next-token-reasoning 就像是在黑暗中先点亮一棵“树形”的路径,照亮周围的环境,分析路径的可能性,然后再迈出下一步。这种转变,提升了模型预测的准确性,赋予了模型更接近人类思考方式的能力(战略思考)。下图所示,RPT 通过强化学习激励模型进行推理并准确预测下一个 token,使得强化学习能够扩展应用于大规模网络文本语料库。
强化预训练(Reinforcement Pre-Training, RPT)将下一个token预测重新定义为一个推理任务,其中语言模型通过强化学习(Reinforcement Learning, RL)被激励去推理并正确预测下一个token。所提出的这种方法使得强化学习能够扩展到网络文本语料库。樱桃蛋糕顶部的图片取自LeCun的PPT
上图展示了 RPT 如何将 next-token-prediction 重新定义为一个推理任务,通过强化学习激励模型进行推理并正确预测下一个 token。这种设计使得 RPT 能够扩展强化学习的应用范围,使其适用于大规模网络文本语料库。
推理模式原理与实现机制
模型实现联想、假设验证等推理模式的关键在于其内部的算法设计和结构优化。以联想模式为例,模型通过构建语义关联图谱,将上下文中的关键词与知识库中的相关信息进行链接。当处理一段关于 “气候变化” 的文本时,模型会基于上下文中的关键词 “温室气体”“全球变暖” 等,联想出相关的概念如 “碳排放”“极地冰川融化” 等。这一过程通过模型内部的注意力机制和语义嵌入层实现,注意力机制能够捕捉上下文中的关键信息,并将其与知识库中的内容进行匹配,而语义嵌入层则将这些信息映射到同一语义空间,便于模型进行联想和关联。
假设验证模式则依赖于模型的概率推理模块。模型会根据当前上下文和推理序列,生成多个可能的假设,然后通过计算每个假设的置信度来验证其合理性。例如,在处理一段历史事件的文本时,模型可能会生成 “该事件的起因可能是经济因素”“该事件的起因可能是政治因素” 等多个假设。通过对上下文信息的深度分析和对历史知识的调用,模型计算每个假设成立的概率,从而筛选出最合理的假设作为后续推理的基础。这一过程涉及到模型内部复杂的概率计算和逻辑判断机制,确保假设验证的准确性和有效性。
为了更直观地理解标准 next-token-prediction 和 RPT 的 next-token-reasoning 之间的差异,我们可以参考下图。
next-token prediction 与 next-token reasoning 的范式比较。标准的 next-token predict 直接估计预训练语料库中的下一个token,而next-token reasoning 则在进行预测之前会对多个token进行推理
标准 next-token-prediction 直接估计预训练语料库中的下一个 token,而 RPT 的 next-token-reasoning 则在进行预测之前,先在多个 token 上进行推理。这种差异使得 RPT 能够更深入地理解文本的语义结构,从而提高预测的准确性。
推理序列长度与复杂度调整策略及量化关系
RPT 模型根据不同场景灵活调整推理序列的长度和复杂度,以适应各种不同的任务需求。这种调整并非随意为之,而是基于严谨的量化关系和评估指标。
基于上述量化关系,提出了以下调整策略:
基于强化学习的预训练(RPT:数据与模型的协同优化)
训练过程与参数更新机制的数学解析
强化学习在 RPT 中的运用是提升模型性能的关键所在。对于给定的前缀 x<t,模型使用当前策略生成 G 个响应(包括推理序列和最终预测序列)。通过前缀匹配奖励验证预测的正确性,利用奖励信号更新模型参数。这一过程就像一个导师在指导学生思考和回答问题,根据学生的回答是否正确给予反馈,并帮助学生不断改进自己的思考方式和答案准确性。
模型在每个训练步骤中会生成多个不同的思考轨迹,每个轨迹包含一个推理序列和对应的下一个 token 预测。然后,对比预测结果与真实值来计算奖励,并根据奖励值调整模型参数,鼓励生成更准确的预测结果。参数更新采用 PPO 算法,其数学原理和参数更新机制如下:
强化预训练(RPT)的示例说明
上图直观地展示了 RPT 的训练过程。给定一个带有缺失后续内容的上下文,LLM 执行策略性展开以生成 G 个不同的思考轨迹。每个轨迹包含一个中间推理步骤和一个对下一个 token 的最终预测。如果预测与真实 token 匹配,则赋予正向奖励;否则,奖励为零。这一奖励信号用于更新 LLM,鼓励生成更准确的延续内容。
奖励机制优化方法与动态调整策略
奖励机制在强化学习中起着至关重要的作用。在 RPT 中,奖励的定义基于累计字节长度和有效边界。对于预测结果与真实值完全匹配且字节长度符合有效边界的情况,给予正向奖励;否则给予零奖励。这种设计确保奖励的准确性和合理性。然而,为了进一步优化奖励机制,可以采用以下方法:
预训练设置:数据与模型的协同优化
数据集选择与预处理优化 :RPT 使用 OmniMATH 数据集进行训练,该数据集包含 4,428 道竞赛级数学问题和解决方案,来源于 AoPS Wiki 和 AoPS 论坛等。在预处理过程中,利用 DeepseekR1-Distill-Qwen-1.5B 小代理模型对 token 进行熵计算,设置熵阈值以过滤掉低熵位置,优先训练具有挑战性的 token。为了进一步优化数据预处理,可以采用以下方法:
- 多级熵过滤 :除了基于单个 token 的熵过滤,还可以考虑上下文窗口内的 token 熵分布,进行多级过滤。例如,对于连续多个低熵 token 的区域,可能表示简单的重复或常见短语,可以整体过滤掉,从而更高效地聚焦于具有挑战性的文本部分。
- 数据增强 :对过滤后的数据进行数据增强操作,如同义词替换、语句重组等,增加数据的多样性和模型的泛化能力。
模型与训练参数优化 :基础模型选择为 Deepseek-R1-Distill-Qwen-14B。训练框架采用 verl 库,推理使用 vllm 库,训练算法为 GRPO。关键训练参数包括学习率 1e-6、批次大小 256、零 KL 惩罚等。详细的超参数设置如下表所示:
用于强化预训练的超参数
根据实际训练需求和资源限制,可以对这些参数进行优化。例如,适当调整学习率可以平衡模型的收敛速度和稳定性;确定合适的批次大小可以充分利用计算资源,同时避免内存溢出等问题。此外,还可以探索以下优化方向:
- 自适应学习率调整 :根据训练过程中的损失变化和奖励趋势,动态调整学习率。当模型性能提升较快时,适当降低学习率以精细调整参数;当性能提升停滞时,适当提高学习率以跳出局部最优。
- 超参数搜索算法 :采用贝叶斯优化等超参数搜索算法,在大规模参数空间中寻找更优的超参数组合,进一步提升模型性能。
实验设计与评估:验证 RPT 的强大性能
预训练模型评估:语言建模与扩展性分析
语言建模性能评估与分析 :利用 OmniMATH 验证集,评估模型在不同难度 token 位置上的 next-token-prediction 准确率。结果表明,RPT 模型在所有难度级别上均优于 R1-Distill-Qwen-14B 的标准 next-token-prediction 和基于推理的预测。例如,在高难度 token 位置上,RPT 模型的准确率提升显著,这可能是因为 RPT 更注重挖掘 token 之间的深层语义关系和推理逻辑,从而在复杂场景下表现出更强的预测能力。具体数值显示,RPT-14B 在高难度 token 位置上的准确率达到 23.75%,相较于 R1-Distill-Qwen-14B 的 20.43% 有明显提升,这归功于 RPT 在预训练阶段对推理能力的强化训练,使得模型能够更好地理解和预测复杂的文本内容。
准确率在三个不同难度的基准测试划分中的 Next-token prediction 表现。RPT在标准的Next-token prediction基线和基于推理的预测基线方面均表现更优
上表提供了不同模型在三种不同难度测试集上的 next-token-prediction 准确率对比。从表中可以看出,RPT 在所有难度级别上都优于标准 next-token-prediction 基线和基于推理的预测基线,这进一步证明了 RPT 的有效性和优越性。
扩展性分析与大规模训练策略 :通过幂律衰减模型拟合 next - token - prediction 准确率与训练计算的关系,发现 RPT 的性能随着训练计算量的增加而持续提升。这表明 RPT 具有良好的扩展性,能够在增加训练资源时获得更优的性能。例如,在训练计算量增加到 1000 步时,模型的准确率相较于初始阶段有了显著提高,且拟合曲线的高 R² 值(如易难度为 0.995,中等难度为 0.997,高难度为 0.989)表明模型对数据的拟合效果非常好。为了进一步优化扩展性,可以采用以下策略:
- 分布式训练架构 :构建高效的分布式训练架构,将模型训练任务分配到多个计算节点上并行执行。通过优化通信机制和数据分片策略,减少节点间通信开销,提高训练效率。
- 混合精度训练 :结合 FP16 和 FP32 精度,在保证模型精度的前提下,减少内存占用和计算量,加速训练过程。同时,采用梯度累积等技术,确保在大规模并行训练中的梯度更新稳定性。
不同难度水平数据上的 next-token prediction 准确率平均表现
上图展示了 R1-Qwen-14B/32B 在不同难度数据上的平均 next-token-prediction 准确率。从图中可以看出,RPT 模型在不同难度级别上均表现出较高的准确率,进一步证明了其在语言建模性能上的优势。
下图则展示了 RPT 的 next-token-prediction 准确率随着训练计算量的增加而一致提升的情况。拟合曲线的高决定系数表明预测值与观测值之间的一致性较高,这表明 RPT 具有良好的扩展性,能够随着训练资源的增加而持续提升性能。
在强化预训练中,随着训练计算量的增加,Next-token prediction accuracy 在所有数据难度下均持续提高。拟合曲线显示出较高的决定系数,表明预测值与观测值之间的一致性
强化微调实验:挖掘 RPT 的深层潜力
在对强化预训练(RPT)进行全面评估的过程中,强化微调实验扮演着至关重要的角色。这一实验环节验证了 RPT 模型在进一步强化学习微调中的表现,也深入揭示了 RPT 相较于传统预训练模型的优势所在,为 RPT 在实际应用中的有效性提供了有力支撑。(扩展阅读👉《强化微调 ReFT:开启大语言模型推理新范式》)
实验设置:精准筛选与严谨配置
强化微调实验的设置遵循科学严谨的原则,从数据采样到参数配置,每一个步骤都经过精心设计。实验数据源自 Skywork-OR1,从中随机采样 256 个问题用于训练,200 个问题用于测试,确保数据样本具有足够的多样性和代表性。数据筛选流程借鉴 SkyworkOR1 的数据过滤管道,利用 R1-Distill-Qwen-32B 模型识别具有挑战性的实例,从而为模型训练提供更具价值的数据素材。
在训练参数方面,训练批次大小和 PPO 小批次大小均设置为 64,训练周期数为 15。这些参数的选择基于对模型学习效率与资源消耗的综合考量,这是为了实现模型性能提升与计算成本控制的平衡。评估设置中,验证时的最大 token 数设定为 32,000,温度参数设定为 0.6,这些参数配置为模型性能的准确评估提供了标准化的测试环境。
对比分析:显著优势与深层原因剖析
对比分析结果令人瞩目。RPT 模型在仅使用 RLVR 进一步训练前后的性能提升显著,而持续使用标准 next-token-prediction 目标训练后的性能提升则相对有限。RPT-14B 模型在进一步 RL 训练后,性能从 56.3 提升到 58.3,而 R1-Distill-Qwen-14B 仅从 51.2 提升到 52.7。这一对比鲜明的结果有力地证明了 RPT 为后续 RL 训练提供了更为坚实的基础。
这一性能差异的背后,源于 RPT 在预训练阶段所培养的推理能力。RPT 通过强化学习激励模型生成推理序列,使得模型在微调阶段能够更快地适应任务特定的逻辑要求。例如,在面对复杂的数学推理任务时,RPT 模型能够在微调过程中迅速抓住问题的关键逻辑,基于预训练阶段形成的推理模式,高效地学习任务特定的解题策略。而传统预训练模型由于缺乏这种推理能力的培养,在微调阶段需要花费更多的时间和计算资源来理解和适应任务逻辑,导致其性能提升较为缓慢。
不同模型的强化微调性能。“持续NTP训练”指的是在与RPT-14B相同的语料库上,使用标准的 next-token prediction 目标进行持续预训练。RPT为后续的强化学习训练提供了更强大的基础
上表展示了不同模型的强化微调性能对比。可以看出,RPT 在进一步 RL 训练后的性能提升明显优于仅使用标准 next-token-prediction 目标训练的模型,这进一步证明了 RPT 的优势。
推理能力迁移:从预训练到微调的桥梁
RPT 的强化微调实验还深入探讨了推理能力从预训练到微调的迁移机制。在预训练阶段,RPT 模型通过生成推理序列来预测下一个 token,这一过程促使模型深入理解文本背后的逻辑结构和语义关系。当进入微调阶段时,这种推理能力成为了模型快速适应新任务的有力武器。
以数学问题求解任务为例,在预训练过程中,RPT 模型已经学会了如何分析数学概念之间的关系、如何应用数学定理进行推理等。在微调阶段,面对具体的数学问题,模型能够将预训练阶段形成的推理模式迁移到新任务中,迅速生成针对问题的推理路径,如 “已知条件是什么”“需要求解的目标是什么”“可以应用哪些数学公式或定理” 等。这种推理能力的迁移使得模型在微调过程中能够以更少的训练数据和计算资源达到更高的性能水平,展现出更强的任务适应性和学习效率。
性能提升的多维度影响:泛化与稳定性的增强
强化微调实验还从多个维度分析了 RPT 模型性能提升的影响。在泛化能力方面,RPT 模型在微调后展现出更强的泛化性能。它能够在不同类型的数学问题上保持稳定的高准确率,无论是代数问题、几何问题还是概率统计问题等。这表明 RPT 模型在预训练阶段所学习到的推理能力具有较强的通用性,能够跨越具体任务的差异,为模型提供广泛适用的推理框架。
在稳定性方面,RPT 模型在微调过程中的训练曲线表现出更少的波动和更快的收敛速度。这得益于 RPT 在预训练阶段通过强化学习所形成的稳定推理机制。模型在微调过程中能够更有效地利用训练数据,避免因数据噪声或任务特定偏差而导致的训练不稳定问题。这种稳定性有助于提高模型的最终性能,使得模型在实际应用中的表现更加可靠和可预测。
零样本任务性能评估:跨领域的强大泛化能力
评估基准与设置优化 :选择 MMLU - Pro 和 SuperGPQA 作为评估基准。下表展示了不同模型在 SuperGPQA 基准测试中的详细零样本性能表现:
在 SuperGPQA 上的零样本性能
下表则展示了不同模型在 MMLU-Pro 基准测试中的详细零样本性能表现:
在 MMLU-Pro 上的零样本性能
在评估时,MMLU - Pro 的 token 数量设置为 12,288,温度为 0.8;SuperGPQA 的 token 数量设置为 12,288,温度同样为 0.8,并采用多选题格式进行评估。为了更全面地评估模型性能,可以增加评估基准的多样性,涵盖更多领域和任务类型,如逻辑推理、创意写作等。
性能对比与原因分析 :RPT-14B 在推理模式下的性能显著优于 R1-Distill-Qwen-14B(标准 next-token-prediction 模式和推理模式)以及 R1-Distill-Qwen-32B(标准 next-token-prediction 模式)。例如,在 SuperGPQA 基准测试中,RPT-14B 的准确率为 39.0%,而 R1-Distill-Qwen-14B 为 32.0%,R1-Distill-Qwen-32B 为 37.2%。这表明 RPT 的推理模式能够帮助模型更好地理解和生成复杂推理任务所需的逻辑连贯、语义准确的文本。其原因在于 RPT 的推理序列生成过程促使模型深入理解文本背后的逻辑结构和语义关系,使得模型在面对不同领域的零样本任务时,能够基于已有的知识和推理能力进行有效的预测和推理。
零样本在通用领域终端任务上的表现。RPT-14B在推理模式下始终优于14B和32B基线模型
上表展示了不同模型在零样本任务上的性能对比。可以看出,RPT-14B 在推理模式下在多个基准测试中均优于基线模型,这进一步证明了 RPT 的有效性和优势。
next-token-reasoning 模式分析:推理背后的思维
为了更清晰地展示推理模式的差异,对推理模式进行了分类,并提取了相应的关键词,具体分类和关键词如下表所示:
模式组和关键词
下表展示了七种提示模板的具体内容:
七个针对 next-token 任务推理的提示模板
推理模式差异统计与解读 :对 R1-Distill-Qwen-14B 和 RPT-14B 的推理响应进行分类统计发现,RPT-14B 在假设模式和演绎推理模式上的使用比例显著更高。假设模式帮助模型探索多种可能的预测路径,而演绎推理模式基于已知信息进行逻辑推导,得出更准确的预测结果。例如,在处理一段关于物理现象的文本时,RPT-14B 会生成多种假设,如“假设接下来会解释物理现象的原因”“假设会给出实验验证方法”,然后通过演绎推理,结合上下文信息,确定最合理的预测路径,从而生成准确的下一个 token。
实例分析与推理过程解析 :以具体的推理实例来看,RPT-14B 在预测下一个 token 时,会对语义上下文进行深入分析。例如,在处理一段关于向量大小计算的文本时,模型会分析上下文中的关键词,如 “magnitude”“formulas” 等,然后提出假设:“接下来可能会解释如何计算向量的大小,或者给出具体的计算步骤。” 接着,它会探索多种可能性,如 “可能是列举计算步骤,也可能是直接给出公式。” 最后,通过自我反思和调整,结合上下文的结构和语义信息,确定最可能的下一个 token。这一过程中,模型的推理序列体现了其对文本深层语义的理解和逻辑推理能力,这是其性能优于传统模型的关键所在。
R1-Distill-Qwen-14B 用于问题求解的推理模式统计,以及 RPT-14B 用于 next-token reasoning 的推理模式统计
上图展示了 R1-Distill-Qwen-14B 和 RPT-14B 在问题解决和 next-token-reasoning 中的推理模式统计。可以看出,RPT-14B 在假设模式和演绎推理模式上的使用比例显著更高,这表明 RPT 更倾向于通过多种推理方式来探索和确定下一个 token。下表则提供了一个 RPT 推理模式的具体示例,展示了 RPT 如何在预测过程中生成推理序列,从而得出更准确的预测结果。
RPT的推理模式示例
RPT与传统范式的比较
大型语言模型的扩展范式
传统 LLM 的扩展范式主要集中在训练时间和测试时间两个维度。训练时间扩展通过增加模型参数和训练数据来提升性能,而测试时间扩展则通过延长推理计算来增强模型的推理能力。RPT 独特地将每个 next-token-prediction 视为推理任务进行扩展,结合了训练时间和测试时间扩展的优点。与传统范式相比,RPT 在技术实现上更加注重推理过程的构建和优化,在应用场景上更适用于复杂推理任务,在性能表现上能够更有效地提升模型的准确性和泛化能力。例如,与仅通过增加模型参数进行扩展的方式相比,RPT 在不大幅增加模型规模的情况下,通过强化推理训练,使得模型在数学推理等复杂任务上的性能得到了显著提升,这体现了 RPT 在扩展范式上的创新性和优势。
大型语言模型的强化学习:RPT 的独特优势与创新
强化学习在 LLM 后训练阶段的应用已取得显著成果。例如,基于人类反馈的强化学习能够使模型更好地对齐人类偏好,而大规模 RL 则提升了模型的推理能力。RPT 与以往工作的主要区别在于采用基于 next-token 预测正确性的规则奖励信号,有效避免了奖励劫持问题。这种创新的奖励机制使得 RPT 在强化学习方法上更具有优势,能够更稳定地提升模型的性能和应用效果。与传统的基于奖励模型的 RL 方法相比,RPT 的规则奖励信号更加直接和客观,减少了因奖励模型偏差导致的训练不稳定问题,从而提高了模型训练的效率和最终性能。
总结:洞察与展望
强化预训练(RPT)的提出,无疑是大型语言模型(LLM)预训练领域的一次重大革新。它在技术层面实现了突破,更深刻地改变了我们对模型认知方式的理解。从传统的 next-token-prediction 到创新性的 next-token-reasoning,这一转变,已经不再是简单的任务重构,而是模型认知模式的一次质的飞跃。
在 next-token-prediction 中,模型的角色类似于一位机械的记忆者,仅凭统计规律预测下一个 token。然而,RPT 将这一过程进化为 next-token-reasoning,赋予了模型战略 “思考” 的能力。在 RPT 框架下,模型不再是简单地根据已有的词频统计等模式进行预测,而是需要先理解上下文中的关键信息,生成推理序列,再进行预测。以数学问题为例,模型不再死记硬背数学符号的顺序,而是通过推理序列,如 “考虑变量之间的关系”“应用定理公式” 等,逐步推导出下一个 token。这种类似于人类思考的过程,使模型能够深入挖掘文本背后的语义和逻辑,而非停留在表面的 token 级相关性上。
这种进化带来的影响是深远而多维的。RPT 模型在语言建模性能上的提升就是最直观的体现。比如实验数据显示,RPT-14B 在高难度 token 位置上的准确率达到 23.75%,相较于 R1-Distill-Qwen-14B 的 20.43% 有明显提升。这表明 RPT 模型能够更精准地把握文本的深层结构和复杂语义关系。这种性能提升不会是偶然的,而是源于 RPT 对模型认知能力的重塑。RPT 通过强化学习机制,激励模型生成推理序列,使模型在训练过程中主动思考文本的内在逻辑和语义关系,探索多种可能的推理路径。这种学习方式使模型能够跳出单纯的记忆模式,转而培养起强大的泛化能力,从而在面对新的、未见过的文本时表现更佳。
更为重要的是,RPT 的推理能力具有强大的泛化潜力。它使模型在面对不同领域和类型的文本时,能够灵活运用推理策略,而非依赖于对特定数据模式的死记硬背。在数学领域,RPT 模型能够通过推理序列深入理解数学概念和定理之间的关系;在文学领域,它则可以分析文本的情感脉络和修辞手法。这种泛化能力的提升,无疑为 LLM 在更多领域的应用开辟了广阔的空间。例如,在教育领域,RPT 可以帮助构建更智能的教育辅导系统,根据学生的学习进度和知识掌握情况,生成个性化的学习材料和问题解答;在科研领域,RPT 能够辅助研究人员进行文献分析和科学发现,提升科研效率。
当然,我们必须认识到 RPT 当前的局限性。实验主要基于 14B 参数模型,预训练语料以数学文档为主,这使得模型在非数学领域的推理能力略显不足。此外,训练起点依赖推理模型,可能会影响 RPT 的普适性和灵活性。如果初始推理模型在某些特定任务上存在缺陷或偏差,可能会对 RPT 的训练效果产生负面影响,限制其在不同场景下的应用范围。
RPT 的提出,我认为是 LLM 预训练领域的一座新里程碑。它为我们提供了当下极具价值的技术方案。我的理解在于,论文中提到的推理范式的转变,大家不觉得有点类似于从 CoT(Chain-of-Thought,思维链)式思考转向了 ToT(Tree-of-Thought,思维树)式思考吗。以下我做了简单的对比。
CoT 与 ToT 的基本概念
- CoT(思维链):强调模型在生成答案之前进行逐步的推理,像是逐步思考和探索的链式过程。例如,面对一个数学问题,CoT 方法会要求模型先进行分解问题、尝试不同解决步骤等,最后得到答案。
- ToT(思维树):在 CoT 的基础上,增加了探索的广度,即生成多个可能的推理路径,形成一个“树”状的思考结构。它不仅关注纵向的推理深度,还注重横向的多种可能性探索。
RPT 与 CoT、ToT 的关系
- 与 CoT 的相似性:RPT 的核心思想是将 next - token - prediction 重构为 next - token - reasoning 任务,要求模型生成推理序列。这类似于 CoT 的逐步推理方式,强调在生成答案之前进行深入的思考和分析。
- 与 ToT 的相似性:RPT 中模型需要生成多个不同的思考轨迹(如 G 个响应),每个轨迹包含一个推理序列和对应的下一个 token 预测。这一过程类似于 ToT 的多路径探索,模型在多个可能的推理路径中进行尝试和评估,从而提高预测的准确性和泛化能力。
RPT 的独特优势
- 更灵活的推理模式:RPT 不仅包含 CoT 的链式推理,还融合了 ToT 的树状探索,使模型能够从多个角度思考问题,提升了推理的全面性和深入性。例如,在文本生成任务中,模型不仅能按部就班地进行逻辑推理,还能同时尝试多种可能的表述方式,选择最合适的一种。
- 强化学习的激励作用:RPT 利用强化学习直接根据预测的正确性给予奖励,引导模型优化推理过程。这种激励机制促使模型在推理过程中更加注重思考的准确性和有效性,使模型能够更好地学习如何进行合理的推理。
- 在预训练阶段的深度整合:RPT 将推理能力的培养深度融入预训练过程,使其成为模型内在的基础能力。这与 CoT 和 ToT 通常在模型生成阶段的运用不同,为模型提供了更坚实、更通用的推理基础。
所以基于以上的理解,RPT 的推理范式转变,是否是吸收了 CoT 和 ToT 的优点,并通过强化学习等机制进一步优化了推理过程,为大型语言模型的预训练和性能提升带来了新的突破。
我在看这篇论文的时候非常兴奋,这不仅是因为 RPT 范式为大型语言模型的预训练带来了全新的思路,还因为这让我又一次看到了模型向上吞噬的能力。可能有小伙伴会诧异或者叫担心,模型向上吞噬,那这不是意味着应用又薄了吗?那么做工程应用的饭碗又浅了一些?模型能力的不断提升,是否会挤压工程应用的生存空间,甚至让人类在技术面前变得无足轻重?
然而,我坚信并非如此。因为现实世界的知识、人类的能力、认知向 AI 压缩的过程,会进一步提升应用智能的飞跃。想想看,AI 的发展从通用模型到如今广泛涌现的 Reason Model,这是模型通过 RL 范式的一次向上吞噬,或许这里用吞噬并不合适,因为这是人类的智慧让模型发生了跃迁。如今 RPT 范式所展现的类 ToT(Tree of Thought)战略思考模式,这每一次模型的进化,都并非是对人类的替代,而是对人类能力的有力补充。所带来的直接收益就是,上层 AI 应用性能的增强,AI 应用的推理准确性得到提升,自动化智能化的效能更高,最终受益的还是人!
RPT 范式的提出,可以看作是基于之前训练范式的又一次飞跃,这一次模型几乎是基于 ToT 的战略思考模式来“定义任务”,而不单纯是“推理任务”。回想一下开篇我提到的 Openai 推理模型 o3 的能力,或许它的背后已应用了这样的战略思考范式,所以才可以实现模型的“跨域”知识的推理。因为模型“眼界”宽了,“看”到的东西不一样了,认知就会有“高度”,综合推理的水平就会上升,Knowledge is power!那么在此,我们思考一下,应用可以基于这样已进化的推理模型做哪些事情?一个单一具体的假设,也许,顶层的 Agent 对于 Graph 的推理可能不再是难题。因为模型已经高效的应用了类 ToT 的思考模式,这可能将极大地推动 Agent 在 GoT(Graph of Thought)实现算法上的进化,使其更加高效和易于实现。同时,这也意味着 AI Agent 的能力基于模型能力进化的现实,也会带来协同进化的增强效应。这也正是我阅读这篇论文让我兴奋的原因,说不定再过半年,类似“战略思考”的推理范式就会落地并普及。
在此,RL范式再次彰显了其强大的力量。当我们面对模型的进化时,无需恐惧或退缩。在人类文明的历史中,每一次人类发明的工具实现进化,人类与这些进化工具的交互都会推动整个文明的跃迁。我们应当正视这一现象,并基于工具的进化,挖掘人类更深层的创造力。人一定是这场技术革命的核心,人类也必须是这场技术革命的主宰者!