GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升

从失误中进修,不只是人类可以做到。近日有研究发现,大模型其实也可以借鉴这种思路。这段时间,大语言模型在各种 NLP 恣意中取得了重大进展,尤其是在需要复杂的思维链(CoT)推理的数学题目方面。比如在 GSM8K、MATH 这样的高难度数学恣意的数据集中,包括 GPT-4 和 PaLM-2 在内的专有模型已取得显著成果。在这方面,开源大模型还有相当的提升空间。为了进一步提高开源大模型处理数学恣意的 CoT 推理威力,一种常见的方法是利用正文 / 生成的题目 - 推理数据对( CoT 数据)对这些模型从事微调,这些数据

从失误中进修,不只是人类可以做到。近日有研究发现,大模型其实也可以借鉴这种思路。

这段时间,大语言模型在各种 NLP 恣意中取得了重大进展,尤其是在需要复杂的思维链(CoT)推理的数学题目方面。

比如在 GSM8K、MATH 这样的高难度数学恣意的数据集中,包括 GPT-4 和 PaLM-2 在内的专有模型已取得显著成果。在这方面,开源大模型还有相当的提升空间。为了进一步提高开源大模型处理数学恣意的 CoT 推理威力,一种常见的方法是利用正文 / 生成的题目 – 推理数据对( CoT 数据)对这些模型从事微调,这些数据对会直接教导模型如何在这些恣意中执行 CoT 推理。

在最近的一篇论文,来自西安交大、微软、北大的研究者尝试探讨了另外一种提升思路:是否可以通过逆向进修过程(即从 LLM 犯过的失误中进修)进一步提高其推理威力?

就像是一个刚开始进修数学的学生,首先会从书本上的知识点和例题中进修,但也会从事练习。解题失败后,他便知道自己犯了什么失误、如何改正,形成一个「错题本」。正是通过从失误中进修,推理威力得到了进一步提高。

受这个过程的启发,这项工作探讨了 LLM 的推理威力如何从理解和纠正失误中受益。

GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升

论文地址:https://arxiv.org/pdf/2310.20689.pdf

具体来说,研究者首先生成失误 – 改正数据对(称为改正数据),然后利用改正数据对 LLM 从事微调。在生成改正数据时,他们利用了多个 LLM(包括 LLaMA 和 GPT 系列模型)来收集不精确的推理途径(即最后谜底不精确),然后利用 GPT-4 作为 「改正器」,为这些不精确的推理途径生成改正。

生成的改正包含三条信息:(1) 原始解法中不精确的步调;(2) 解释该步调不精确的原因;(3) 如何改正原始解法以得出精确的最后谜底。在过滤掉最后谜底不精确的改正后,人工评价结果表明,改正数据在后续的微调阶段表现出了足够的品质。研究者利用 QLoRA 对 CoT 数据和改正数据微调了 LLM,从而执行了「从失误中进修」(LEMA)。

研究者指出,当前 LLM 能够在解决题目时采用循序渐进(step-by-step)的方法,然而这种多步调生成过程并不意味着 LLM 本身就拥有强大的推理威力,因为它们可能只是模仿人类推理的表面行为,而没有真正理解精确推理所需的底层逻辑和规则。

这种不理解会导致在推理过程中出现失误,因此需要「世界模型」的帮助,因为「世界模型」对现实世界的逻辑和规则具有先验意识。从这个角度来看,本文中 LEMA 框架可以看成是采用了 GPT-4 作为「世界模型」,教导更小的模型遵守这些逻辑和规则,而不仅仅是模仿 step-by-step 的行为。

接下来,我们看一下这项研究的具体方法。

方法概览

下图 1(左)为 LEMA 的整体流程,包括两个主要阶段,分别是生成改正数据和微调 LLM。图 1(右)为 LEMA 在 GSM8K 和 MATH 数据集上的性能表现。

GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升

生成改正数据

给定一个问答示例GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升、一个改正器模型 M_c 和一个推理模型 M_r,研究者生成了失误改正数据对GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升,其中GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升表示题目 q_i 的不精确推理途径,c_i 表示对GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升的改正。

改正不精确的推理途径。研究者首先利用推理模型 M_r,为每个题目 q_i 采样了多个推理途径,然后只保留那些最后得不出精确谜底 a_i 的途径,如下公式(1)所示。

GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升

为失误生成改正。对于题目 q_i 和不精确的推理途径GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升,研究者利用改正器模型 M_c 来生成一个改正,然后在改正中检查精确谜底,如下公式(2)所示。

GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升

这里 P_c 包含 4 个带正文的失误改正示例,以指导改正器模型应该在生成的改正中包含什么类型的信息。

具体来讲,带正文的改正包含以下三类信息:

失误步调:原始推理途径中哪一步出错了。

解释:该步调中出现了什么类型的失误;

精确解决方案:如何改正不精确的推理途径以更好地解决原始题目。

下图示例 1 简要地展示了生成改正所用的 prompt。

GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升

生成改正的人工评价。在生成更大规模的数据之前,研究者首先手动评价了生成改正的品质。他们以 LLaMA-2-70B 为 M_r、以 GPT-4 为 M_c,并基于 GSM8K 训练集生成了 50 个失误改正数据对。

研究者将改正划分为了三个品质等级,分别为优秀(Excellent)、良好(Good)和糟糕(Poor)。三者的示例分别如下所示。

GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升

GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升

GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升

评价结果发现,50 个生成改正中有 35 个达到了优秀品质、11 个为良好、4 个为糟糕。根据这一评价结果,研究者推断利用 GPT-4 生成改正的整体品质足以从事进一步的微调阶段。因此,他们生成了更多大规模的改正,并将所有最后得出精确谜底的改正用于微调 LLM。

微调 LLM

在生成改正数据之后,研究者微调了 LLM,从而评价这些模型是否可以从失误中进修。他们主要在以下两种微调设置下从事性能比较。

一是在思维链(CoT)数据上微调。研究者仅在题目原理(question-rationale)数据上微调模型。尽管每个恣意中有带正文的数据,但他们额外采用了 CoT 数据增强。研究者利用 GPT-4 为训练集中的每个题目生成了更多推理途径,并过滤掉最后谜底失误的途径。他们利用 CoT 数据增强来构建一个强大的微调基线,该基线仅利用 CoT 数据,并有助于对控制微调的数据大小从事消融研究。

二是在 CoT 数据 + 改正数据上微调。除了 CoT 数据,研究者还将生成的失误改正数据用于微调(即 LEMA)。他们同样从事了控制数据大小的消融实验,以减少增量对数据大小的影响。

下图附录 A 中的示例 5 和示例 6 分别展示了用于微调的 CoT 数据和改正数据的输入 – 输出格式。

GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升

实验结果

研究者在五个开源 LLM 和两个具有挑战性的数学推理恣意上的实验结果证明了 LEMA 的有效性。

GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升

与仅在 CoT 数据上从事微调相比,LEMA 在各种 LLM 和恣意中都能起到持续提升性能的作用。例如,利用 LLaMA-2-70B 的 LEMA 在 GSM8K 和 MATH 上分别取得了 83.5% 和 25.0% 的成绩,而仅在 CoT 数据上从事微调则分别取得了 81.4% 和 23.6% 的成绩。

GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升

此外,LEMA 与专有 LLM 兼容:带有 WizardMath-70B /MetaMath-70B 的 LEMA 在 GSM8K 上实现了 84.2%/85.4% 的 pass@1 精确率,在 MATH 上实现了 27.1%/26.9% 的 pass@1 精确率,超过了众多开源模型在这些挑战性恣意上取得的 SOTA 性能。

随后的消融研究表明,在相同的数据量下,LEMA 仍然优于 CoT-alone 微调。这表明,CoT 数据和校正数据的有效性并不相同,因为两种数据源的结合比利用单一数据源能产生更多的改进。这些实验结果和分析强调了从失误中进修在增强 LLM 推理威力方面的潜力。

更多研究细节,可参考原论文。

给TA打赏
共{{data.count}}人
人已打赏
理论

GPT-4能「伪装」成人类吗?图灵尝试结果出炉

2023-11-2 14:29:00

理论

AI能懂得自己生成的东西吗? 在GPT-4、Midjourney上实验后,有人破案了

2023-11-6 10:53:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索