大家好,我是肆〇柒。当下大型语言模型(LLM)已深度融入诸多领域,从智能写作到语言翻译,从智能客服到数据分析,其影响力无处不在。然而,在处理复杂问题时,推理能力的强弱直接决定了模型的实用性。目前,多数 LLM 在解决高度复杂的推理任务时,仍存在显著局限,如容易陷入局部最优解、无法有效纠正自身错误等。
随着强化学习范式被广泛应用取得了一系列成果。OpenAI 在利用 RL 提升 LLM 推理能力方面成果显著。其推出的 o1 模型,通过精心设计的奖励函数和 RL 算法,对模型输出进行优化调整,使其在数学推理、逻辑推理等任务上取得了性能突破。DeepSeek 推出的 DeepSeekR1 模型,同样借助 RL 技术,强化了模型在复杂推理任务中的表现。Google 的 Gemini 2.5 模型也融合了 RL 训练方法,在多模态推理任务中展现出强大的性能。但这些模型往往依赖于已具备较强推理能力的模型作为基础,且训练过程中使用的奖励信号可能存在噪声干扰,导致模型更新方向出现偏差,性能提升不稳定。现有 LLM 在处理复杂推理问题时常出现以下错误:一是关键步骤遗漏;二是路径选择不当;三是错误纠正困难。
可见,RL 虽在一定程度上提升了 LLM 推理能力,但其依然存在一些局限性。一方面,它们大多依赖于本身已具备较强推理能力的模型作为基础,限制了方法的普适性和应用范围;另一方面,在训练过程中,由于奖励信号可能存在噪声干扰,导致模型性能提升不稳定,甚至在某些情况下出现性能退化现象。对于非推理型模型(如开源模型 Llama 3),如何突破其推理能力瓶颈,成为了需要解决的难题。
ASTRO(Autoregressive Search-Taught Reasoner)作为一种创新框架,由 Meta 和华盛顿大学的研究人员们共同推出。ASTRO 的核心在于将搜索算法的行为融入语言模型,通过模拟人类解决问题时的试错、反思与调整过程,使模型具备自我反思、回溯以及探索的能力,从而显著提升其推理性能。这也为开源 LLM 的推理能力提升开辟了新路径。
ASTRO 架构与设计思路
ASTRO 的核心理念是借鉴人类解决问题时的搜索式推理过程,将语言模型转化为一个能够在解空间中进行自主探索、反思和调整的 “自回归搜索式推理器”。它模拟人类在面对复杂问题时,不断尝试不同解决路径,从失败中学习,总结经验教训,最终找到正确答案的思维方式。
ASTRO 框架分为三个关键阶段。
1. 首先是搜索轨迹生成阶段,通过蒙特卡洛树搜索(MCTS)在数学问题的解空间中进行广泛探索,构建包含多种解题路径的搜索树,并将搜索树线性化处理为带有自我反思和回溯的自然语言链式思考(CoT);
算法伪代码:搜索树序列化
2. 接着是监督微调(SFT)阶段,使用生成的高质量 CoT 数据集对 Llama 3 等模型进行微调,将搜索行为注入模型;
3. 最后是强化学习(RL)阶段,进一步优化模型的推理和搜索能力,提升其在复杂推理任务中的表现。
应用 ASTRO 教会了Llama-3.1-70B-Instruct模型进行上下文中的自我反思和回溯,从而提升了其数学推理能力。在MATH-500测试中,该模型的准确率达到了81.8%;在2023年美国数学竞赛(AMC 2023)中,准确率为64.4%;在2024年美国数学邀请赛(AIME 2024)中,通过率(pass@1)为30.0%
搜索结果
搜索结果轨迹生成
蒙特卡洛树搜索(MCTS)的应用
MCTS 是一种结合了随机抽样和决策树搜索的算法。它通过
1. 选择 - 根据当前节点的访问次数和奖励值选择最有前景的子节点
2. 扩展 - 从选中的节点出发,尝试新的行动并扩展搜索树
3. 回溯 - 将扩展节点的奖励值回传至父节点,更新路径上的节点值
以上三大步骤,在数学问题的解空间中进行高效探索。在 ASTRO 框架下,MCTS 能够平衡探索新路径与利用已知有效路径的矛盾,确保搜索过程既具有广泛性又不失针对性。
举个具体例子,假设我们要解决一个几何问题:已知三角形的两条边长和夹角,求第三边长。语言模型政策 ΠLM 会根据当前状态(已知两条边长和夹角)生成多个可能的下一步操作,比如应用余弦定理、尝试构造相似三角形等。MCTS 的选择步骤会根据这些操作的历史访问次数和奖励值,选择最有可能成功的操作进行扩展;扩展步骤会生成新的状态节点,如计算出第三边长的表达式;回溯步骤则会根据最终结果的正确性,更新所有相关节点的奖励值和访问次数,从而优化搜索策略。
搜索树的线性化处理
将搜索树转换为线性节点序列的方法是按照深度优先的顺序遍历搜索树,依次记录访问的节点。这样做的目的是将复杂的树状搜索路径简化为易于处理的序列形式,便于后续的语言模型学习。保留正确和错误答案节点至关重要,因为正确答案节点提供了成功案例,而错误节点则为模型提供了反面教材,使其能够学习到哪些路径不可行,从而在实际推理中避免重蹈覆辙。
比如在代数方程求解中,搜索树中可能包含因错误应用公式得到的错误解节点,以及通过正确步骤得到的正确解节点。将这些节点线性化后,模型可以清晰地看到错误与正确的推理过程对比,进而学习到正确的解题策略。
语言线性化与过程克隆
在将线性化的搜索轨迹转换为自然语言链式思考(CoT)时,对于节点为父节点的情况,会添加像 “让我们回到之前的步骤……” 这样的回溯短语,引导模型从当前节点返回到更早的思考环节;当节点为根节点时,则使用 “让我们重新开始思考……” 之类的重启短语。
例如,在搜索树中,当当前节点对应的是对题目条件的错误理解时,会通过回溯短语引导模型回到对条件正确解读的父节点,重新展开思考,确保 CoT 能够完整地反映模型的思考修正过程。
ASTRO 框架概览。对数学推理问题的处理过程如下:首先,以可验证的奖励为依据,逐步执行蒙特卡洛树搜索(MCTS),生成一棵搜索树。在这棵树中,每个节点都包含一个离散的推理步骤及其对应的 Q 值。接着,将访问过的节点序列(包括那些包含错误答案的中间节点)线性化,形成一个自然语言表达的解决方案,并在其中融入回溯和自我反思的逻辑。然后,对这些融合了搜索过程的解决方案进行有监督的微调(SFT),以此来引导策略执行自回归搜索。最后,再进一步借助强化学习(RL)来提升策略的搜索和推理能力
监督微调(SFT)
数据集的构建与特点
ASTRO 使用的开源数学数据集包括 MATH-train、NuminaMath(涵盖 AMC/AIME 和 AoPS-forum 子集)等。这些数据集涵盖了从高中数学到竞赛数学的广泛题目,具有题目类型多样、难度梯度合理、答案解析详细等特点。从搜索树中筛选高质量 CoT 解决方案的过程,是基于模型对答案的自我评估(self-evaluation)得分进行筛选,只有那些经过多次自我评估且一致认为推理过程和答案正确的 CoT 才会被纳入数据集。最终构建的数据集规模庞大,包含数十万条高质量的数学问题及其对应的详细 CoT 解决方案。
ASTRO 主要训练运行的 SFT 数据集组成情况
比如 MATH-train 数据集中包含大量的代数、几何、微积分等题目,每个题目都配有完整的解题步骤和答案,这些解题步骤经过专业数学人士的审核,确保了其准确性和逻辑性,为模型的微调提供了优质的训练素材。
微调过程与目标
对 Llama 3 系列模型进行 SFT 时,采用标准的监督学习方法,将数据集中的数学问题作为输入,对应的 CoT 解决方案作为期望输出,通过优化模型参数,使模型生成的输出尽可能接近期望的 CoT。在这个过程中,模型逐渐学习到搜索行为模式,即如何像搜索算法一样,在解空间中尝试不同的路径,并通过自我反思和回溯来纠正错误,从而提升其推理能力。
例如,在微调过程中,当模型生成的解题步骤出现偏差时,监督信号会引导模型调整参数,使其朝着正确的解题路径方向调整,经过多次迭代后,模型在面对类似数学问题时,能够更准确地生成符合逻辑的解题步骤。
通过过程克隆来生成搜索轨迹示例。利用策略通过蒙特卡洛树搜索(MCTS)在解空间中进行搜索,并且会记录下那些最终结果为错误答案的终端节点,以及结果为正确答案的终端节点。然后,将搜索树进行线性化处理,使其能够从错误的终端节点(节点68)回溯到与正确终端节点(节点96)的最大公共祖先节点(节点16)。最后,将节点序列重新编写为一条长的思考链,同时在思考链中加入自我反思和回溯的语句
强化学习(RL)
数据集的筛选与处理
用于 RL 训练的开源数学数据集同样基于 MATH - 500、AMC 2023、AIME 2024 等权威竞赛题目,筛选标准严格。
这是针对基于Llama-3.1-70b-instruct训练的Astro模型的强化学习(RL)数据集组成情况。其中,“# problems total”指的是经过基于字符串的过滤(用于筛除低质量或不可验证的问题)后剩余的问题总数;“pass rate avg.”是指所有问题在N=64次输出中的平均通过率;“# problems solved”是指有非零通过率的问题数量;“# problems used”是指在每个训练子集中,符合SFT(监督微调)策略中1%到75%通过率范围内的问题数量,主要用这部分问题来进行强化学习实验
首先要排除那些模型能够轻易解决的简单问题(通过率高于 75%)和模型几乎无法解决的难题(通过率低于 1%),专注于选取对模型具有中等难度的问题,以确保训练的有效性和针对性。具体操作是让经过 SFT 的模型为每个问题生成多个解决方案,计算每个问题的通过率(即生成的正确解决方案占比),根据通过率筛选出符合难度范围的问题。
例如,在筛选过程中,某个几何题目若模型生成的 10 个解决方案中有 8 个正确,则其通过率为 80%,该题目将被纳入训练数据集,因为它对当前模型而言具有一定的挑战性,但又并非完全无法解决,通过 RL 训练有助于提升模型在该类问题上的表现。
训练过程与策略
基于 Group Relative Policy Optimization(GRPO)的训练方法,通过计算优势函数来评估每个解决方案的优劣。优势函数通过比较同一问题多个解决方案的奖励值,确定哪些解决方案更优,从而引导模型优先生成高质量解决方案。同时,设置 KL 惩罚项来控制新策略与旧策略之间的差异,防止模型更新过快导致性能不稳定。
例如,在训练过程中,对于同一道代数应用题,模型生成了三个不同的解决方案,分别对应奖励值为 +1(正确)、-0.5(部分正确)、-1(错误)。通过计算优势函数,模型会得知第一个方案更具优势,从而在后续生成中增加生成类似正确解决方案的概率,同时减少生成错误方案的概率,逐步提升整体推理能力。优势函数的计算公式为:A(s, a) = Q(s, a) - V(s),其中 Q(s, a) 是状态 - 行为对的价值,V(s) 是状态的价值。KL 惩罚项则通过限制策略更新前后概率分布之间的 KL 散度,确保更新的稳定性。
训练曲线详细展示了 Llama-3.1-70B-ASTRO-RL 在强化学习(RL)训练过程中的行为表现。(左侧)模型在训练过程中的推理链(CoT)长度变化情况。初始的 SFT 策略生成的 token 数量在 1600 到 1800 之间,而在最初的 1000 步训练中,其生成长度逐渐增加。在第 1000 步之后,生成长度的增加速度变慢,但最终整体增加,平均生成约 6000 个 token。(右侧)在强化学习过程中分配给策略的奖励分数,其中正确答案被赋予 +1 分,错误答案被赋予 -1 分。策略最初正确解决的实例不到 30%,但在经过强化学习后,能够正确解决超过 60% 的实例
实验设计与结果
实验设置
研究人员使用了强大的硬件设备来支持模型的训练和评估。在实验过程中,采用了 NVIDIA H100 GPUs,这些 GPU 具有高内存容量和强大的并行计算能力,能够高效处理大规模的深度学习任务。
- 在 SFT 阶段,使用了 8 个 GPU 节点,每个节点配备 8 块 NVIDIA H100 GPU;
- 在 RL 阶段,为了满足更大的计算需求,使用了 32 个 GPU 节点,每个节点同样配备 8 块 NVIDIA H100 GPU,其中 128 GPU 用于训练,另外 128 GPU 用于推理过程,确保模型训练的高效性和稳定性。
在 SFT 阶段,模型训练采用了 AdamW 优化器,初始学习率为 3e - 6,并配置了余弦调度器来动态调整学习率。同时,设置最大序列长度为 8,192 个 tokens,以容纳较长的数学问题和对应的 CoT 解决方案。
在 RL 阶段,使用了恒定的学习率 2e - 7,批大小设置为 256,梯度累积步数为 1,最大序列长度增加至 15,360 个 tokens,以适应更复杂的推理任务需求。此外,在 RL 训练中,每个提示进行 4 次 rollout 以估计优势函数,并设置了温度参数为 1.0,以及 80 个 warmup 步骤来平稳启动训练过程。
为了全面评估 ASTRO 的性能,研究人员选择了三个广泛使用的数学基准测试:MATH - 500、AMC 2023 和 AIME 2024。这些基准测试涵盖了不同难度级别的数学问题,包括代数、几何、数论等多个领域,能够有效衡量模型在数学推理任务上的能力。评估指标方面,主要采用 pass@1 和 maj@8 两种指标。pass@1 指的是模型生成的多个解决方案中至少有一个正确的概率;maj@8 则是在 10 次不同运行中,对每个问题随机抽取 8 个答案,计算多数答案正确的概率,从而更全面地反映模型的稳定性和准确性。
主要实验结果
ASTRO 在 MATH - 500 基准测试中取得了显著的性能提升。
Llama - 3.1 - 70B - ASTRO - RL 模型的 pass@1 分数达到了 81.8%,相较于原始 Llama - 3.1 - 70B - Instruct 模型的 65.8% 提升了 16.0%;在 AMC 2023 基准测试中,其 pass@1 分数为 64.4%,相比原始模型的 37.5% 提升了 26.9%;而在 AIME 2024 基准测试中,pass@1 分数达到 30.0%,相较于原始模型的 10.0% 提升了 20.0%。同时,ASTRO 还与其他优化方法进行了对比。
例如,与基于 Llama - 3.1 - 70B - Instruct 的 SPOC 和 Step - KTO 方法相比,ASTRO - RL 在 MATH - 500 上分别高出 6.1% 和 4.6%(pass@1);在 AIME 2024 上分别高出 9.4% 和 10.0%(pass@1)。即使与基于更强大的 Llama - 3.3 - 70B - Instruct 的 SPOC 和 Step - KTO 方法相比,ASTRO - RL 在 MATH - 500 上也持平或略胜一筹,在 AIME 2024 上与之相当,充分证明了 ASTRO 在提升推理能力方面的优势。
主要实验结果。Llama-3.1-70B-ASTRO-SFT 在通过过程克隆获得高质量搜索轨迹方面,优于 llama-3.1-70b-instruct。Llama-3.1-70B-ASTRO-RL 不仅优于 llama-3.3-70b-instruct,还优于基于 llama-3.1-70b-instruct 的 SPOC 和 Step-KTO,并且在 MATH-500 和 AIME 2024 上,甚至优于或与基于 llama-3.3-70b-instruct 的 SPOC 和 Step-KTO 表现相当。注意,在 AMC 2023 和 AIME 2024 的评估中,pass@1 分数是基于 16 次不同运行的平均值,而基线分数则不是
在代数问题求解方面,ASTRO 展现出强大的方程构建和求解能力。例如,在处理多元高次方程组时,能够通过自我反思和回溯,准确找出错误的假设和计算步骤,重新构建正确的解题路径,有效避免因错误代入导致的解错问题。在几何问题上,ASTRO 能够灵活运用几何定理和公式,如在解决复杂的立体几何体积计算问题时,通过对几何体结构的深入分析和多次尝试不同的分解方法,最终准确计算出体积。对于组合数学问题,ASTRO 能够清晰地梳理组合逻辑,正确应用排列组合公式,避免因重复计数或遗漏计数导致的错误,在组合优化问题上表现出色。
在训练过程中,ASTRO 模型生成答案的长度呈现出明显的增长趋势。在 SFT 阶段初期,模型生成的 CoT 长度较短,平均在 1,600 - 1,800 个 tokens 左右;随着训练的进行,尤其是在 RL 阶段,模型逐渐学会了更深入地探索解空间,生成的 CoT 长度不断增加,在训练后期平均达到约 6,000 个 tokens。同时,奖励分数也呈现出稳定的上升趋势。初始阶段,模型的正确解答率较低,奖励分数(正确为 +1,错误为 -1)平均值较低;但经过 RL 优化后,模型的正确解答率显著提升,奖励分数平均值逐渐上升,表明模型在训练过程中不断学习到更有效的推理策略和搜索方法,能够更准确地解决复杂的数学问题。
实验结果表明,在经过SFT(顶部)和RL(底部)训练后,基于相同的输入数学问题和从相同搜索树中整理出的CoT解决方案,采用自我反思和回溯先验(ASTRO)进行训练的模型,相比未采用自我反思和回溯先验(直接)进行训练的模型,在所有基准测试中均表现更优
在通过强化学习(RL)训练 Llama-3.1-70B-ASTRO-RL 的过程中,其在 MATH-500、AMC 2023 和 AIME 2024 这三个基准测试中的表现均随着训练的推进而稳步提升。采用 pass@1 指标进行评估,其中 AMC 2023 和 AIME 2024 的指标是通过对 16 次不同运行的分数取平均值得到的
搜索结果先验的影响
为了验证搜索先验的重要性,研究人员进行了对比实验。在实验中,分别训练了带有搜索先验的 ASTRO 模型和不带有搜索先验的直接训练模型(Direct)。结果表明,ASTRO - SFT 模型在 MATH - 500 和 AMC 2023 基准测试中均优于 Direct - SFT 模型,分别高出 3.2% 和 6.0%(pass@1);在 RL 阶段,ASTRO - RL 模型相较于 Direct - RL 模型在所有基准测试中均有显著优势,MATH - 500 上高出 7.6%(pass@1),AMC 2023 上高出 13.5%(pass@1),AIME 2024 上高出 14.0%(pass@1)。这充分证明了搜索先验在模型推理能力提升中的关键作用,通过在训练数据中融入自我反思和回溯模式,模型能够更好地学习到搜索式推理行为,从而在复杂问题求解中表现更优。
在 RL 训练过程中,研究人员记录了模型执行回溯操作的次数,并分析了其与评估性能之间的相关性。
在本研究中,对比了无搜索基线(Direct)和 ASTRO 在三个评估基准上的强化学习(RL)训练曲线。从训练过程来看,使用搜索先验进行训练的 ASTRO(深蓝色曲线)与未使用搜索先验的无搜索基线(浅蓝色曲线)之间存在明显差异。这一结果充分展示了在强化学习中融入搜索先验的重要性
结果表明,随着 RL 训练的推进,模型执行的回溯次数总体呈上升趋势。进一步的统计分析显示,在 MATH - 500、AMC 2023 和 AIME 2024 三个基准测试中,回溯次数与评估性能(pass@1 分数)之间的 Pearson 相关系数分别为 0.816、0.851 和 0.854,呈现出高度正相关关系。这表明,模型在测试时执行的回溯操作越多,其最终的评估性能越好,进一步验证了搜索先验中自我反思和回溯模式对提升模型推理能力的重要贡献。
定性分析与案例研究
以一道经典的数学问题为例:“已知一个三位数,其各位数字之和为 15,十位数字比百位数字大 1,且该三位数能被 3 整除,求这个三位数。”ASTRO 模型生成的推理过程如下:首先,定义百位、十位、个位数字分别为 a、b、c,根据题意列出方程:a + b + c = 15,且 b = a + 1。同时,由于该数能被 3 整除,根据被 3 整除的性质,各位数字之和 15 本身能被 3 整除,但还需进一步确定具体数字组合。接着,尝试代入可能的 a 值。假设 a = 1,则 b = 2,代入第一个方程得 c = 12,显然不符合数字定义(0 ≤ c ≤ 9),因此回溯到 a 的选择步骤。继续尝试 a = 2,则 b = 3,代入得 c = 10,同样不符合条件,再次回溯。当尝试 a = 3 时,b = 4,c = 8,得到三位数 348,检查发现其满足所有条件:3 + 4 + 8 = 15,十位数字 4 比百位数字 3 大 1,且 348 能被 3 整除(348 ÷ 3 = 116),最终确定答案为 348。整个推理过程完整地体现了 ASTRO 模型的自我反思和回溯能力,通过不断尝试和纠正错误,最终找到正确答案。
这是 Llama-3.1-70B-ASTRO-RL 解决 2023 年 AMC 问题的一个示例。(左侧)模型生成了一个包含自我反思(黑色)和回溯(蓝色)的长篇思维链(CoT),并探索解题空间,从错误答案(红色)的推理路径中回溯,直至找到正确答案(绿色)的推理路径。(右侧)将该思维链映射为有向图,其中节点代表离散的推理步骤。箭头表示搜索过程,蓝色箭头表示回溯,虚线箭头表示省略的中间步骤
在解决上述问题时,ASTRO 模型首先根据题目条件建立数学模型,列出方程,这是其具备的基础推理能力。在尝试代入不同 a 值的过程中,模型表现出明显的搜索行为,不断探索可能的解空间。当发现某些尝试导致不符合实际的数字(如 c 超出 0 - 9 范围)时,能够及时回溯到前面的步骤,调整参数重新尝试,体现了良好的错误纠正能力。此外,模型在搜索过程中并非随机尝试,而是按照一定的逻辑顺序(从小到大尝试 a 值),这反映了其具备一定的搜索策略,能够有效缩小解空间范围,提高搜索效率。
相比之下,未使用搜索先验训练的模型在解决相同问题时,生成的解决方案往往缺乏连贯性和逻辑性。例如,可能在尝试 a = 1 得到 c = 12 后,未意识到错误,继续后续计算,最终生成不符合实际的三位数;或者在多次尝试错误后,无法有效总结经验,陷入无限循环尝试中,无法得出正确答案。而 ASTRO 模型凭借其搜索先验赋予的自我反思和回溯能力,能够清晰地识别错误,及时调整方向,最终成功解决问题,这充分展示了 ASTRO 在推理任务中的显著优势。
(顶部)在强化学习(RL)训练过程中,策略在训练提示中生成的平均回溯次数。我们的策略在强化学习训练期间整体上呈现出回溯次数不断增加的趋势。(底部)在强化学习训练期间评估的所有检查点上,回溯次数与在评估基准上的表现之间的相关性。散点图显示,在测试时执行的回溯次数与我们基准上的最终评估指标之间存在正相关关系(皮尔逊相关系数分别为0.816、0.851、0.854)
其他同类研究工作
自我修正与推理
近年来,自我修正机制在语言模型训练中逐渐受到关注。研究表明,通过训练模型学习每一步的负反馈响应,能够有效帮助模型摆脱数据中的错误模式,从而提升推理准确性。例如,在数学问题求解中,模型学会识别哪些解题步骤容易导致错误,并主动避免这些步骤。
而在预训练数据中添加带有错误解题步骤及其修正方法的数据,让模型在学习过程中接触正确和错误的解题示例,从而更好地理解错误的根源和纠正方法,进而在合成数学数据集上取得了更高的准确率。
还有研究采用迭代微调的方法,使模型能够在上下文中自我改进解决方案,实现推理性能的逐步提升。模型先生成初步解决方案,然后对其进行自我评估和反思,找出可能存在的错误,再通过微调进一步优化解决方案,经过多轮迭代后,模型的推理能力得到显著增强。
学习搜索以进行推理
算法蒸馏方法可以通过自回归方式将强化学习算法的知识和经验融入神经网络,使模型能够在无梯度更新的情况下,基于已学习到的搜索策略持续改进自身性能。而引入的过程克隆技术,通过模仿专家计算步骤,使模型在新环境中表现出更优的泛化能力,能够快速适应不同的搜索任务和环境要求。
Searchformer 模型在模仿 A* 搜索结果搜索算法的序列预测方面取得了显著成果,成功解决了 Sokoban 拼图问题。它通过学习 A* 搜索关键词算法的搜索路径和决策过程,将这种搜索行为转化为模型的生成能力,使模型能够在处理类似拼图问题时,生成有效的搜索步骤和解决方案。
另外,训练语言模型模仿不同的搜索策略(如 BFS 或 DFS),以应对 Countdown 任务,充分证明了学习搜索策略对于提升模型推理能力的可行性,模型在 Countdown 任务中的表现得到了明显提升,能够更快速、更准确地找到符合条件的数字组合。
强化学习与推理
有研究表明,采用带有可验证奖励的 RL 方法,相较于基于模型生成奖励的方法,能为模型提供更稳定、更可靠的奖励信号,从而提升训练效果。这是因为可验证奖励能够基于真实答案对模型输出进行准确评估,避免了模型生成奖励可能存在的偏差和噪声干扰。
DeepSeek-AI 等团队利用 RL 与可验证奖励训练语言模型生成长 CoT,成功增强了模型的认知行为,如自我修正和逐步推理能力。他们通过精心设计的奖励函数,鼓励模型生成详细的解题步骤和反思过程,使模型在解决复杂数学问题时能够展现出更深入的思考和分析能力。例如,在处理复杂的几何证明问题时,模型会生成包含多个中间推理步骤和自我反思的 CoT,逐步推导出最终答案,显著提升了答案的正确性和可信度。
而基于 Qwen 基础模型,采用 RL 与可验证奖励进行训练,同样取得了显著的推理能力提升成果。在实验中,Qwen 模型在多个数学推理基准测试上的性能得到了大幅提高,证明了该方法的有效性。例如,在解决代数方程组问题时,模型能够生成更准确、更完整的解题步骤,正确率显著提升,同时模型在推理过程中的稳定性和可靠性也得到了增强,为后续的推理任务提供了有力支持。
总结
ASTRO 框架凭借其独特的搜索轨迹生成、监督微调和强化学习三阶段训练模式,成功地将搜索算法的行为融入语言模型,显著提升了开源 LLM 的推理能力。其主要贡献在于提出了系统的搜索式推理训练方法,通过蒙特卡洛树搜索生成高质量的带自我反思和回溯的 CoT 数据,为模型注入了搜索先验知识;并通过精心设计的 RL 训练策略,进一步优化模型的推理和搜索能力。这一创新框架不仅在理论上具有新颖性,在实际应用中也展现出了强大的效果。ASTRO 在 MATH - 500、AMC 2023、AIME 2024 等基准测试中的卓越表现,证明了其在解决复杂数学问题上的强大潜力。相较于原始 Llama 模型和其他优化方法,ASTRO 实现了显著的性能提升,例如在 MATH - 500 上 pass@1 分数提升了 16.0%,在 AMC 2023 上提升了 26.9%,在 AIME 2024 上提升了 20.0%。这些成果有力地验证了 ASTRO 框架的有效性,表明其能够有效地提升开源 LLM 的推理能力,使其在面对复杂推理任务时表现出色。
ASTRO 为自然语言处理领域,尤其是在数学推理任务中,带来了深远的影响。它打破了传统强化学习方法对已有强推理能力模型的依赖,为非推理型模型(如 Llama 3)的推理能力提升开辟了新路径。这拓宽了推理能力提升方法的应用范围,推动了整个领域向更高效、更智能的方向发展。在数学推理任务中,ASTRO 使模型能够更精准地解决问题,生成更详细、更准确的解题步骤,为教育、科研等领域提供了更强大的辅助工具。
ASTRO 为 LLM 推理能力研究提供了全新的思路和方法。它将搜索算法与语言模型相结合,通过模拟人类的搜索式推理过程,为模型赋予了自我反思和回溯的能力。这种创新的方法为后续研究提供了重要的启示,引导研究者们从更广泛的视角探索提升模型推理能力的途径,如结合多种搜索算法、引入新的强化学习策略等,有望进一步推动 LLM 推理能力的发展。