对于具有挑战性的 step-by-step 数学推理课题,是在每一步给予嘉奖还是在最后给予单个嘉奖更有效呢?OpenAI 的最新研讨给出了他们的谜底。
现在,大语言模型迎来了「无所不能」的时代,其中在执行复杂多步推理方面的能力也有了很大提高。不过,即使是最先进的大模型也会产生逻辑过失,通常称为幻觉。因此,减轻幻觉是构建对齐 AGI 的关键一步。
为了训练更可靠的模型,目前可以选择两种不同的格式来训练嘉奖模型,一种是结果监视,另一种是流程监视。结果监视嘉奖模型(ORMs)仅应用模型思维链的最终结果来训练,而流程监视嘉奖模型(PRMs)则接受思维链中每一个步调的嘉奖。
考虑到训练可靠模型的重要性以及人为反馈的高成本,仔细比较结果监视与流程监视非常重要。虽然最近的工作已经开展了这种比较,但仍然存在很多课题。
在本文中,OpenAI 从事了调研,结果发现在训练模型解决 MATH 数据集的课题时,流程监视显著优于结果监视。OpenAI 应用自己的 PRM 模型解决了 MATH 尝试集中代表性子集的 78% 的课题。
此外为了支持相关研讨,OpenAI 还开源了 PRM800K,它是一个包含 800K 个步级人类反馈标签的完整数据集,用于训练它们的最佳嘉奖模型。
如下为一个真正(True positive)的问答示例。该课题以及 OpenAI 列举的其他课题示例均来自 GPT-4。这个具有挑战性的三角学课题需要并不明显地连续应用多个恒等式。大多数解决方案尝试都失败了,因为很难知道哪些恒等式实际上有用。尽管 GPT-4 通常无法解决这个课题(准确率仅为 0.1% ),但本文的嘉奖模型准确地识别出了这个解决方案是有效的。
再看一个假正(False positive)的问答示例。在第四步中,GPT-4 过失地声称该序列每 12 个项重复一次,而实际上是每 10 个项重复一次。这种计数过失偶尔会愚弄嘉奖模型。
论文作者之一、OpenAI Alignment 团队负责人 Jan Leike 表示,「应用 LLM 做数学题的真正有趣结果是:监视每一步比只检查谜底更有效。」
英伟达 AI 科学家 Jim Fan 认为,「这篇论文的观点很简单:对于挑战性的逐步课题,要在每一步给予嘉奖,而不要在最后给予单个嘉奖。从根本上来说,密集嘉奖信号>稀疏。」
我们接下来细看 OpenAI 这篇论文的格式和结果。
论文地址:https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf
数据集地址:https://github.com/openai/prm800k
格式概览
该研讨按照与 Uesato et al. (2022) 类似的格式对结果监视和流程监视从事了比较。值得注意的是这项研讨无需人为即可提供结果监视,因为 MATH 数据集中的所有课题都有可自动检查的谜底。相比之下,没有简单的格式来自动化流程监视。该研讨依靠人类数据标记者来提供流程监视,具体来说是需要人为标记模型天生的解决方案中每一个步调的准确性。该研讨在大规模和小规模两种情况下分别从事了实验。
范围
对于每种模型规模,该研讨都应用一个固定模型来天生所有解决方案。这个模型被称为天生器,OpenAI 表示不会通过强化学习 (RL) 来改进天生器。
基础模型
所有大型模型均是基于 GPT-4 模型从事微调得来的。该研讨还添加了一个额外的预训练步调 —— 在含有约 1.5B 数学相关 token 的数据集 MathMix 上微调所有模型。与 Lewkowycz et al. (2022) 类似,OpenAI 的研讨团队发现这种格式可以提高模型的数学推理能力。
天生器
为了更容易解析单个步调,该研讨训练天生器在天生解决方案时,步调之间用换行符分隔。具体来说,该研讨对 MATH 训练课题应用少样本天生解决方案,过滤出得到最终准确谜底的解决方案,并在该数据集上对基础模型从事一个 epoch 的微调。
数据采集
为了收集流程监视数据,该研讨向人类数据标记者展示了大规模天生器采样的数学课题的逐步解决方案。人类数据标记者的任务是为解决方案中的每一个步调分配正面、负面或中性标签,如下图 1 所示。
该研讨只标记大型天生器天生的解决方案,以最大限度地发挥有限的人为数据资源的价值。该研讨将收集到的按步调标记的整个数据集称为 PRM800K。PRM800K 训练集包含 800K 步调标签,涵盖 12K 课题的 75K 解决方案。为了最大限度地减少过拟合,PRM800K 训练集包含来自 MATH 的 4.5K 尝试课题数据,并仅在剩余的 500 个 MATH 尝试课题上评估模型。
结果监视嘉奖模型 (ORM)
该研讨按照与 Cobbe et al. (2021) 类似的格式训练 ORM,并从天生器中为每一个课题采样固定数量的解决方案,然后训练 ORM 来预测每一个解决方案的准确与否。实践中,自动检查最终谜底来确定准确性是一种常用的格式,但原则上由人为标记者来提供标签。在尝试时,该研讨应用 ORM 在最终 token 处的预测作为每一个解决方案的总分。
流程监视嘉奖模型(PRM)
PRM 用来预测每一个步调(step)中最后一个 token 之后的步调的准确性。这种预测采用单个 token 形式,并且 OpenAI 在训练流程中最大化这些目标 token 的对数似然。因此,PRM 可以在标准的语言模型 pipeline 中从事训练,无需任何特殊的适应措施。
图 2 为同一个课题的 2 种解决方案,左边的谜底是准确的,右边的谜底是过失的。绿色背景表示 PRM 得分高,红色背景表示 PRM 得分低。PRM 可以准确识别过失解决方案中的过失。
在从事流程监视时,OpenAI 有意选择仅对第一个过失步调从事监视,从而使得结果监视和流程监视之间的比较更加直接。对于准确的解决方案,两种格式提供的信息相同,因为每一步都是准确的解题格式。对于过失的解决方案,两种格式都能揭示至少存在一个过失,并且流程监视还揭示了该过失的确切位置。
大规模监视
OpenAI 应用全流程监视数据集 PRM800K 来训练 PRM,为了使 ORM 基准更加强大,OpenAI 还为每一个课题从事了 100 个样本的训练,这些样本均来自天生器,由此 ORM 训练集与 PRM800K 没有重叠样本。
下图为结果监视和流程监视嘉奖模型以及投票方案的比较,结果表明在搜索模型天生的解决方案时,PRM 比 ORM 和多数投票更有效。
小规模综合监视
为了更好的比较结果监视和流程监视,首先需要注意的是 ORM 和 PRM 的训练集不具有直接可比性,PRM 训练集是应用主动学习构建的,偏向于谜底过失的解决方案,还比 ORM 训练集少一个数量级。
流程监视 VS 结果监视
首先 OpenAI 从小规模天生器中为每一个课题采样 1 到 200 个解决方案。对于每一个数据集,OpenAI 提供三种形式的监视:来自 PRM_large 的流程监视,来自 PRM_large 的结果监视以及来自最终谜底检查的结果监视。
图 4a 表明,流程监视明显优于其他两种形式的结果监视;图 4b 表明,应用 PRM_large 从事结果监视明显比最终谜底检查的结果监视更有效。
OOD 泛化
为了衡量模型在分布外(OOD)泛化的性能,OpenAI 对大规模 ORM 和 PRM 在一个由 224 个 STEM 课题组成的 held-out(留出法)上从事评估,这些课题来自最新的 AP 物理(美国大学先修课程简称 AP)、AP 微积分、AP 化学、AMC10(理解为数学竞赛)和 AMC12 考试,模型没有见过这些课题。表格 1 中报告了 ORM、PRM 和多数投票的前 100 个的最佳表现。表明,PRM 的性能优于 ORM 和多数投票,同时意味着 PRM 在新的尝试课题上性能仍然保持不变。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/26432