比「让我们一步一步思考」这句咒语还管用，提醒工程正在被改进

大言语模型可以通过元提醒执行主动提醒工程，但由于缺乏足够的指示以引导大言语模型中的复杂推理能力，它们的潜力可能没有完全发挥。那么该如何指示大言语模型举行主动提醒工程？大型言语模型（LLM）已经是许多自然言语处理任意的强大工具，只要能给出正确的提醒。然而，由于模型的敏感性，找到最优提醒通常需要举行大量手动尝试和试错努力。此外，一旦将初始提醒部署到生产环境中，可能会出现意想不到的边缘情况，需要更多轮的手动调整来进一步完善提醒。这些挑战催生了主动提醒工程的新兴研究领域。在这一领域内，一个显著的方法涉及利用 LLM 自身的

大言语模型可以通过元提醒执行主动提醒工程，但由于缺乏足够的指示以引导大言语模型中的复杂推理能力，它们的潜力可能没有完全发挥。那么该如何指示大言语模型举行主动提醒工程？

大型言语模型（LLM）已经是许多自然言语处理任意的强大工具，只要能给出正确的提醒。然而，由于模型的敏感性，找到最优提醒通常需要举行大量手动尝试和试错努力。此外，一旦将初始提醒部署到生产环境中，可能会出现意想不到的边缘情况，需要更多轮的手动调整来进一步完善提醒。

这些挑战催生了主动提醒工程的新兴研究领域。在这一领域内，一个显著的方法涉及利用 LLM 自身的能力。具体来说，这涉及运用指令对 LLM 举行元提醒，例如「检查当前提醒和一批示例，然后提出一个新的提醒」。

虽然这些方法取得了令人印象深刻的功能，但随之而来的问题是：什么样的元提醒适用于主动提醒工程？

为了回答这个问题，来自南加州大学、微软的研究者将两个关键观察联系起来：（1）提醒工程本身就是需要深层推理的复杂言语任意：这涉及密切审查模型的错误、假设当前提醒中缺少或误导了什么、如何将任意更清晰的传递给 LLM。(2) 在 LLM 中，通过促使模型「一步一步地思考」可以引发复杂的推理能力，并通过指示它们反思其输出可以进一步提高这种能力。

比「让我们一步一步思考」这句咒语还管用，提醒工程正在被改进

论文地址：https://arxiv.org/pdf/2311.05661.pdf

通过连接前面的两个观察，研究者举行提醒工程，这样做的目的是构建一个元提醒，从而指示 LLM 更有效地执行提醒工程 (见下图 2）。通过反思现有方法的局限性并融合复杂推理提醒的最新进展，他们引入了元提醒组件，如逐步推理模板和上下文规范，明确指示 LLM 在提醒工程过程中举行推理。

此外，由于提醒工程可以看作是一个优化问题，通过从常见的优化概念中汲取灵感，如批处理大小、步长和动量，并将它们的口头表达引入到元提醒中。并且两个数学推理数据集，MultiArith 和 GSM8K 上实验了这些组件和变体，并确定了一个表现最佳的组合，将其命名为 PE2。

PE2 取得了强大的实证功能。在运用 TEXT-DAVINCI-003 作为任意模型时，PE2 生成的提醒在 MultiArith 上超过 zero-shot 思维链的一步一步举行思考的提醒 6.3％，在 GSM8K 上提高了 3.1％。此外，PE2 在功能上优于两个主动提醒工程基线，Iterative APE 和 APO (图 1)。

值得注意的是，PE2 在反现实任意上的表现最为有效。此外，该研究还证明了 PE2 在优化冗长、现实世界提醒上具有广泛的适用性。

比「让我们一步一步思考」这句咒语还管用，提醒工程正在被改进

在审查 PE2 的提醒编写历史时，研究者发现 PE2 始终提供有意义的提醒编写。它能够修正错误或不完整的提醒，并通过增加额外的细节使提醒更加丰富，从而促成最终功能的提升 (表 4 所示)。

有趣的是，当 PE2 不知道在八进制中举行加法运算时，它会从示例中制定自己的算术规则：「如果两个数字都小于 50，则将 2 增加到总和中。如果其中一个数字是 50 或更大，则将 22 增加到总和中。」尽管这是一个不完美的简便解决方案，但它展示了 PE2 在反现实情境中举行推理的非凡能力。

尽管取得了这些成就，研究者也认识到了 PE2 的局限性和失败案例。PE2 也会受到 LLM 固有限制的影响和限制，比如忽视给定的指令和产生错误的合理性 (下表 5 所示)。

比「让我们一步一步思考」这句咒语还管用，提醒工程正在被改进

背景知识

提醒工程

提醒工程的目标是在运用给定的 LLM M_task 作为任意模型时（如下公式所示），在给定数据集 D 上找到达到最佳功能的文本提醒 p∗。更具体地说，假设所有数据集都可以格式化为文本输入 – 输出对，即 D = {(x, y)}。一个用于优化提醒的训练集 D_train，一个用于验证的 D_dev，以及一个用于最终评价的 D_test。按照研究者提出的符号表示，提醒工程问题可以描写为：

比「让我们一步一步思考」这句咒语还管用，提醒工程正在被改进

其中，M_task (x; p) 是在给定提醒 p 的条件下模型生成的输出，而 f 是对每个示例的评价函数。例如，如果评价指标是完全匹配，那么比「让我们一步一步思考」这句咒语还管用，提醒工程正在被改进

运用 LLM 举行主动提醒工程

在给定一组初始提醒的情况下，主动提醒工程师将不断提出新的、可能更好的提醒。在时间戳 t，提醒工程师获得一个提醒 p^(t)，并期望写一个新提醒 p^(t+1)。在新的提醒生成过程中，可以选择检查一批示例 B = {(x, y, y′ )}。这里 y ′ = M_task (x; p) 表示模型生成的输出，y 表示真实标签。运用 p^meta 表示一个元提醒，用于指示 LLM 的 M_proposal 提出新的提醒。因此，

比「让我们一步一步思考」这句咒语还管用，提醒工程正在被改进

构建一个更好的元提醒 p^meta 以提高所提出的提醒 p^(t+1) 的质量是本研究的主要关注点。

构建更好的元提醒

就像提醒在最终任意功能中发挥重要作用一样，引入到公式 2 中的元提醒 p^meta 在新提出的提醒质量以及主动提醒工程的整体质量中起着重要作用。

研究者主要专注于对元提醒 p^meta 举行提醒工程，开发了可能有助于提高 LLM 提醒工程质量的元提醒组件，并对这些组件举行系统的消融研究。

研究者基于以下两个动机来设计这些组件的基础：（1）提供详细的指示和背景信息：（2）融入常见的优化器概念。接下来，研究者将更详细地描写这些元素并解释相关原理。下图 2 为可视化展示。

比「让我们一步一步思考」这句咒语还管用，提醒工程正在被改进

提供详细的指令和上下文。在先前的研究中，元提醒要么指示提议模型生成提醒的释义，要么包含有关检查一批示例的最小指令。因此通过为元提醒增加额外的指令和上下文可能是有益的。

(a) 提醒工程教程。为了帮助 LLM 更好地理解提醒工程的任意，研究者在元提醒中提供一个提醒工程的在线教程。

(b) 两步任意描写。提醒工程任意可以分解为两个步骤，像 Pryzant et al. 所做的那样：在第一步，模型应该检查当前的提醒和一批示例。在第二步，模型应该构建一个改进的提醒。然而，在 Pryzant et al. 的方法中，每一步都是即时解释的。与之相反的是，研究者考虑的是在元提醒中澄清这两个步骤，并提前传递期望。

(d) 上下文规范。在实践中，提醒插入整个输入序列的位置是灵活的。它可以在输入文本之前描写任意，例如「将英语翻译成法语」。它也可以出现在输入文本之后，例如「一步一步地思考」，以引发推理能力。为了认识到这些不同的上下文，研究者明确指定了提醒与输入之间的相互作用。例如：「Q: <input> A ：一步一步地思考。」

融入常见的优化器概念。在前面方程 1 中描写的提醒工程问题本质上是一个优化问题，而方程 2 中的提醒提议可以被视为举行一次优化步骤。因此，研究者考虑以下在基于梯度的优化中常用的概念，并开发他们元提醒中运用的对应词。

(e) 批处理大小。批处理大小是在每个提醒提议步骤 (方程 2) 中运用的 (失败) 示例数量。作家在分析中尝试了批处理大小为 {1, 2, 4, 8}。

(f) 步长。在基于梯度的优化中，步长确定模型权重更新的幅度。在提醒工程中，其对应物可能是可以修改的单词（token）数量。作家直接指定「你可以更改原始提醒中的最多 s 个单词」，其中 s ∈ {5, 10, 15, None}。

(g) 优化历史和动量。动量 (Qian, 1999) 是一种通过保持过去梯度的移动平均来加速优化并避免振荡的技术。为了开发动量的言语对应部分，本文包含了所有过去的提醒（时间戳为 0, 1, …, t − 1）、它们在 dev 集上的表现以及提醒编写的摘要。

实验

作家运用以下四组任意来评价 PE2 的有效性和局限性：

1. 数学推理；2. 指令归纳；3. 反现实评价；4. 生产提醒。

改进的基准与更新的 LLMs。在表 2 的前两部分中，作家观察到运用 TEXT-DAVINCI-003 可以显著提高功能，表明它更能够在 Zero-shot CoT 中解决数学推理问题。此外，两个提醒之间的差距缩小了（MultiArith：3.3% → 1.0%，GSM8K：2.3% → 0.6%），表明 TEXT-DAVINCI-003 对提醒释义的敏感性减小。鉴于此，依赖简单释义的方法如 Iterative APE，可能无法有效地提升最终结果。更精确和有针对性的提醒编写是提高功能的必要条件。

比「让我们一步一步思考」这句咒语还管用，提醒工程正在被改进

PE2 在各种任意上优于 Iterative APE 和 APO。PE2 能够找到一个在 MultiArith 上达到 92.3% 准确率（比 Zero-shot CoT 高 6.3%）和在 GSM8K 上达到 64.0% 的提醒 (+3.1%)。此外，PE2 找到的提醒在指令归纳基准、反现实评价和生产提醒上优于 Iterative APE 和 APO。

在前面图 1 中，作家总结了 PE2 在指令归纳基准、反现实评价和生产提醒上获得的功能提升，展示了 PE2 在各种言语任意上取得了强大的功能。值得注意的是，当运用归纳初始化时，PE2 在 12 个反现实任意中的 11 个上优于 APO (图 6 所示)，证明了 PE2 能够推理矛盾和反现实情境。

比「让我们一步一步思考」这句咒语还管用，提醒工程正在被改进

PE2 生成有针对性的提醒编写和高质量提醒。在图 4 (a) 中，作家绘制了提醒优化过程中提醒提议的质量。实验中观察到三种提醒优化方法有非常明显的模式：Iterative APE 基于释义，因此新生成的提醒具有较小的方差。APO 举行了大幅度的提醒编写，因此功能在第一步下降。PE2 在这三种方法中是最稳定的。在表 3 中，作家列出了这些方法找到的最佳提醒。APO 和 PE2 都能够提供「考虑所有部分 / 细节」的指令。此外，PE2 被设计为仔细检查批次，使其能够超越简单的释义编写，举行非常具体的提醒编写，例如「记得根据需要增加或减去」。

比「让我们一步一步思考」这句咒语还管用，提醒工程正在被改进

了解更多内容，请参考原论文。

{{userData.name}}已认证

比「让我们一步一步思考」这句咒语还管用，提醒工程正在被改进

人类考92分的题，GPT-4只能考15分：尝试一升级，大模型全都现原形了

「GPT-4只是在收缩数据」，马毅团队造出白盒Transformer，可解释的大模型要来了吗？

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

特斯拉人形机器人 Optimus 现场做饮料，员工证实有人在远程控制

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

研究：AI 医疗建议存巨大安全隐患，22% 的回答可能致死