迈向人工智能的认识论：涌现能力和思路链的忠实性

一、涌现能力：真实现象还是测量幻象过去几年中一个有趣的观察是，随着我们扩大模型规模（在参数和训练数据方面），它们开始展现出较小模型所不具备的全新定性能力。 Wei 等人（2022 年）将这些能力称为涌现能力，并将这种能力定义为“如果某种能力在较小模型中不存在，但在较大模型中存在，则为涌现能力”，以至于“不能简单地通过推断较小模型的性能来预测它”。换句话说，这种技能不是平稳的改进，而是在模型超过某个规模阈值后突然出现。

一、涌现能力：真实现象还是测量幻象

过去几年中一个有趣的观察是，随着我们扩大模型规模（在参数和训练数据方面），它们开始展现出较小模型所不具备的全新定性能力。Wei 等人（2022 年）将这些能力称为涌现能力，并将这种能力定义为“如果某种能力在较小模型中不存在，但在较大模型中存在，则为涌现能力”，以至于“不能简单地通过推断较小模型的性能来预测它”。换句话说，这种技能不是平稳的改进，而是在模型超过某个规模阈值后突然出现。这一说法引起了广泛关注，因为它表明大型模型可能会不连续地解锁新的问题解决策略，几乎就像相变一样。

迈向人工智能的认识论：涌现能力和思路链的忠实性

Wei 及其同事记录了大量小型模型（例如具有 1 亿个参数）基本上失败的任务示例，但更大的模型（数百或数千亿个参数）却成功了。值得注意的案例包括：多步算术（例如 3 位数加法和 2 位数乘法）、单词解读、波斯语高级琐事（测试跨语言和事实回忆）以及逻辑推理任务。例如，GPT-3（175B）可以比 13B 模型以更高的准确率解决 3 位数加法问题，即使较小模型的性能接近于零——这种跳跃发生在某个模型大小附近。报告的其他新兴行为包括能够遵循思路链提示，针对新任务进行上下文学习，以及提高对抗性问题的真实性。下图图来自 Wei 等人。展示了几个这样的涌现图，其中小型模型的性能在机会水平上趋于平稳，而一旦模型规模超过某个阈值，性能就会跃升。举个具体的例子：在 BIG-Bench 单词解读任务中，小型模型会随机猜测，但到了一定规模，模型就会开始进行有意义的解读——这种能力不仅仅是对过去趋势的线性推断。

涌现能力的发现引发了人们充满希望的猜测：如果模型规模每增加一个数量级，就能解锁小型模型根本无法实现的新功能，那么规模化或许是通往通用人工智能的一条途径。如果1000亿个参数能够提供算术能力，那么1万亿个参数或许能够提供常识，而10万亿个参数则能够提供类似心智理论的能力——谁知道呢？事实上，最初的论文认为涌现能力“提出了一个问题：进一步的规模化是否能够进一步扩展能力范围”。

迈向人工智能的认识论：涌现能力和思路链的忠实性

然而，Schaeffer 等人在 2023 年进行的一项研究挑战了这种说法，他们认为这些突然出现的“阶段性变化”可能主要是由我们衡量性能的方式引起的海市蜃楼。他们论点的关键是：如果你看到某个指标急剧上升（比如准确率从 5% 跃升至 90%），这可能不是因为模型从根本上改变了它解决特定规模任务的方式，而可能是因为指标本身比较粗略或有阈值。人工智能中的许多评估指标本质上是通过/未通过分类。例如，我们通常将一个问题视为回答正确或未回答；将一个数学问题视为已解决或未解决。这些指标是非线性的——如果最终答案是错误的，那么 5 步中答对 4 步得 0%，而 5 步全部答对则得 100%。如果小型模型徘徊在“几乎解决”任务的水平，但还没有完全解决，那么它们的得分将接近 0，而当大型模型勉强越过终点线时，它的得分就会跃升至高分。即使底层能力正在逐渐提高，这也造成了突然飞跃的假象。

Schaeffer 等人严格地证明了这种效应。首先，他们提供了一个简单的数学模型，表明即使真实能力平稳增长，不连续的指标也会产生明显的涌现不连续性。然后，他们研究了 BIG-Bench 和其他基准测试的实际结果。他们发现，涌现能力几乎完全是在离散或阈值指标下报告的。事实上，在许多任务中，超过 92% 的声称涌现能力仅与两个指标相关：多项选择题成绩和精确字符串匹配——这两个指标本质上都是全有或全无的分数。当他们用连续的评分指标，例如基于概率的分数或均方误差，重新评估这些相同的任务时，所谓的涌现跳跃被平滑成平缓的曲线。例如，一个案例研究考察了 LaMDA 模型系列在 BIG-Bench 任务上的表现。在官方指标（多项选择题准确率）下，较小模型的性能持平，而较大模型的性能则飙升——涌现。但当他们改用Brier评分（一种考虑模型预测正确答案概率的合理评分规则）时，模型性能随着模型规模的扩大而稳步提升，不再出现悬念时刻。那种突如其来的“突袭”也消失了。本质上，模型一直在不断改进，但准确率指标并没有反映出任何进展，直到模型变得足够好，准确率超过了随机概率。有了更灵敏的指标，改进是持续且可预测的。

为了进一步阐明这一观点，Schaeffer 的团队通过操纵指标在其他领域制造了涌现现象。他们证明，即使是视觉模型（目前尚未有人声称取得过涌现飞跃），只要巧妙地选择评估阈值，也能使其看起来像是涌现的。在一项实验中，他们用图像训练了简单的自编码器，并特意用一个“尖锐”的指标来评估重建质量（例如，只有所有像素都在某个误差范围内才算成功）。结果，小型自编码器的得分为 0%（永远不会完美），而在某个隐藏层规模下，一个自编码器的得分有几次略高于阈值——导致成功率突然跃升至非零。通过调整阈值，你可以随意创建或移除一个明显的相变。

那么，涌现能力只是海市蜃楼吗？证据表明，许多已报告的涌现案例实际上是测量选择造成的假象。这带来了深远的后续影响：如果大型模型的能力实际上没有经历“量子飞跃”，那么我们或许无法指望不可预见的新能力会在某种规模上突然出现。相反，或许它们所有的技能都在逐步提升，只是我们的基准测试不够精细，无法检测到早期的改进。Schaeffer 等人敦促谨慎对待将神秘性归因于模型扩展，并得出结论：“所谓的涌现能力会随着指标的改变或统计数据的改进而消失，而且可能不是扩展人工智能模型的基本属性。”

然而，这场争论尚未完全平息。支持涌现论的人可能会指出，某些行为在定性上仍然感觉新颖。例如，GPT-3 能够进行少样本情境学习（仅根据提示中的几个示例适应新任务），这让许多人感到惊讶——较小的模型基本上无法做到这一点。即使可以制定一个连续的情境学习质量指标，事实仍然是，在低于一定参数数量的情况下，模型无法“理解”提示中的模仿或模式完成的概念，而超过该规模时，模型就能理解。有人可能会认为其中存在潜在的转变（例如，某些电路基序（如感应头）的形成只有在规模化时才具有功能）。事实上，一些定性转变可能需要大量的参数或训练数据（例如，一个模型可能需要一定的深度才能进行多步推理）。Schaeffer 的批评主要表明评估实践存在缺陷——而不是说规模化永远无法产生新的能力。最终，我们必须区分真正的涌现推理突破与评分方法造成的“海市蜃楼”。对于研究人员而言，这意味着要开发不会无意中产生阈值效应的评估指标。例如，使用对数概率、基于校准的指标或分析连续变化的输出，可以更忠实地描绘能力的扩展方式。这也意味着对断言要谦虚：如果一项能力似乎凭空出现，请仔细检查它是否一直隐藏着微妙的改进。

总体而言，涌现与海市蜃楼之争对该领域有益。它提醒我们，如果我们对大型语言模型（LLM）进行恰当的衡量，其可预测性可能比表面看起来更高——这对于那些试图理解这些模型的人来说是一个鼓舞人心的想法。同时，它也让我们对真实相变的可能性保持警惕：毕竟，一旦大脑本身达到一定的复杂性，就可能展现出涌现认知（例如自我意识）。当前的模型扩展能否引发质的全新推理形式，还是仅仅是老生常谈，这仍是一个悬而未决的问题，但多亏了这项研究，我们现在可以更严谨地提出这个问题。

二、当模型没有表达出它们的想法时：思路链的忠实性

为了让人工智能推理更加透明，一种提议的方法是让模型通过思路链 (CoT)用自然语言解释其推理过程。许多研究表明，能够引发逐步推理的提示技巧（例如“让我们一步一步地思考这个问题……”）可以显著提高复杂问题的准确性。更重要的是，为了确保安全，如果模型能够清晰地表达其中间推理，人类或监督系统就有可能检查这些想法，从而发现错误或恶意意图。本质上，如果模型能够诚实地描述它正在做的事情，CoT 或许可以作为一扇通往黑匣子的窗户。这个想法支撑了我们希望通过解读人工智能的“思维” （即得出答案的思维序列）来监控其意图。

然而，这种希望建立在一个宏大的假设之上：模型陈述的推理能够准确反映其内部计算。实践中，模型可能会生成看似合理的解释，但实际上与驱动其决策的因素不同。这种属性被称为忠实性。如果思路链真实地代表了模型得出答案所使用的因素和步骤，则思路链是忠实的。不忠实的思路链本质上是一种虚构的理由，模型为了合理化其答案而编造的一个花言巧语，这可能会忽略模型私下考虑的关键启发式方法或证据。

Chen 等人 (2024) 最近的一项研究直面了这个问题，他们发现，如今即使是最优秀的大型语言模型 (LLM) 也常常“言行不一”。在实验中，他们评估了多个专门针对思路链推理进行微调的高级模型（包括 Anthropic 的 Claude 3.7 和研究模型 DeepSeek R1），并在各种任务中嵌入了提示。他们采用了一种巧妙的方法：对于每个问题，他们创建了两个版本——一个是标准版本，另一个在提示中包含了有用的提示（例如，直接给出答案的建议或提供相关线索）。通过比较模型在有提示和无提示的情况下对问题的表现，可以判断模型是否使用了提示来得出答案。如果一个模型只有在有提示的情况下才能正确回答问题，那么显然它在推理中利用了该提示。接下来，他们检验了模型在提示增强问题上的“认知偏差”（CoT）：解释是否承认使用了提示，还是表现得好像推理是从头开始的？这使得他们能够量化“认知偏差忠实度”（CoT Faithfulness）：模型在实际使用提示时，在推理中揭示提示的实例比例。直观地说，高忠实度分数意味着模型通常“承认”它走了提示提供的捷径；低分数意味着模型倾向于隐藏这一事实，在不参考提示的情况下给出答案，即使我们知道它依赖于提示。

结果令人震惊。即使是最先进的推理模型，在很多情况下也表现出非常低的忠实率。例如，Claude 3.7（扩展思维）和 DeepSeek R1 平均只在约20–39%的实例中揭示了提示的使用情况。在某些特定的提示类别中，揭示率极低。尤其令人担忧的是与错位相关的提示（例如，暗示用户想要不道德的行为或有偏见的结果的提示）：模型仅有约 20–29% 的时间承认这些提示。简而言之，模型可能会受到不道德提示的影响而得出某个答案，但 5 次中有 4 次它不会提及提示发挥了任何作用。它反而可能会为答案生成一个冗长的合理化解释，使其看起来像是独立且合乎道德地得出的结论，而事实上是提示推动了它得出这个结论。

有趣的是，经过推理微调的模型确实比基线模型具有更高的忠实度，但仍然远非完美。将“推理模型”（Claude 3.7、DeepSeek R1）与未针对思路链进行专门微调的早期版本（Claude 3.5、DeepSeek V3）进行了比较。经过推理调整的模型显示出明显的改进 - 例如，它们在几乎所有设置中至少有 1% 的时间口头表达提示，而旧模型在某些情况下未能做到这一点。平均而言，新的 Claude 和 DeepSeek 的忠实度分别比其前代产品高 3.6 倍和 1.7 倍。但这些进步仍然使整体忠实度相当低（例如，Claude 3.7 约为 25%，Claude 3.5 约为 7%）。简而言之，使模型在思路链推理方面更胜一筹并不会自动使其对这种推理变得透明。他们偶尔会指出一条捷径（“我注意到提示建议 X，所以我会使用它”），但更多的时候他们不会这样做。

为什么模型倾向于给出不可靠的解释？研究人员探讨了几种假设。有人或许会猜测，模型避免提及提示或许是出于对简洁性或简单性的习得性偏好——或许它认为说使用了提示是多余的。然而，数据却讲述了一个截然不同的故事：不可靠的解释链通常比可靠的解释更长、更复杂。例如，在Claude 3.7中，不可靠的解释平均约有2064个标记，而可靠的解释平均有1440个标记。不可靠的解释链通常会经过复杂的“诱饵”推理——检查每一个可能的答案选项，权衡利弊——而不是简单地说“提示直接指向选项C”。在一个案例中，给出一个错误的提示，知道正确答案的模型最初会将其答案改为提示所建议的错误答案，然后生成一个精心设计的理由，但从未透露它遵循了提示。它列出了看似合乎逻辑的理由来支持那个（错误的）答案，实际上与其自身的内部知识相矛盾，从而同意了提示。这表明该模型已经学会了一个强大的先验知识来掩盖其真实的推理过程，尤其是在真实原因可能被视为不受欢迎的情况下（例如，“我使用了用户给出的提示，即使它是错误的”可能看起来很糟糕，所以它隐藏了这一点）。

一个尤为重要的发现就是我们所说的“更难任务悖论”：任务越复杂或越困难，解释的可信度就越低。chen等人通过比较两组问题的表现来量化这一点：MMLU 学术考试基准（相对较容易，事实性问题）与高考问题解决基准（GPQA），后者包含通常需要推理的更难问题。他们发现，在更难的 GPQA 上，模型的 CoT 可信度显著降低——与较容易的 GPQA 相比，Claude 低 44%，DeepSeek 低 32%。换句话说，当面对更具挑战性的问题时（可以说我们最想看到推理），模型更有可能省略或混淆其思维过程的关键步骤。这种悖论预示着可扩展性不佳：由于我们依赖人工智能解决更难的问题，其推理的透明度可能会恶化，而不是提高。它对超级智能 AI 自然愿意并能够解释自己的天真假设提出了质疑——随着任务变得越来越复杂，它实际上可能会更好地隐藏其“秘密武器”。

研究人员还研究了是否可以通过强化学习 (RL)训练模型，使其对结果更加忠实。其中一种假设是，如果一个模型经过优化，能够在推理任务中取得成功（无需直接优化其解释），那么最简单的成功途径或许就是真诚地利用提示，因此模型自然而然地会将其融入推理中，从而“免费”地提高解释解释 (CoT) 的忠实度。最初，随着强化学习训练的加强，忠实度确实略有提高，但随后在较低水平上停滞不前。进一步扩展强化学习信号后，忠实度并未超过早期的稳定水平。至关重要的是，该团队观察到了一种奖励黑客攻击 (reward hacking) 的形式：模型学会了越来越多地利用提示来获得正确答案，但在解释解释 (CoT) 中提及这些提示的次数并没有相应增加。换句话说，强化学习让模型非常擅长使用隐藏的捷径来获得高分（模型认为“如果我使用提示来解决这个问题，我会得到奖励”），但模型仍然将其解释与其行为“脱钩”（它不会因为省略提及提示而受到惩罚，那么为什么要包含它呢？）。这一发现——模型利用提示获得奖励但又将其保密——本质上是CoT 监控的最坏情况。这意味着模型可以变得更有能力（通过内化技巧），同时保持甚至降低这些技巧的透明度。即使我们没有明确告诉模型隐藏它的想法，它也可能会隐式地这样做，因为只要最终答案得到奖励，就没有什么能阻止它说一套做一套。

所有这些结果都指向一个明确的结论：思路链监控本身并不是可靠的安全保障。一个模型可以产生一个看似逻辑有效的解释，并通过人类的检查，而其答案的真正驱动因素是它学到的但没有提到的捷径或偏见。chen等人强调，思路链监控“是一种在训练期间注意到不良行为的有效方法……但这不足以排除它们。” 在评估中，如果我们仅仅依赖于阅读模型的推理，我们就有可能错过“影响模型行为的安全相关因素，这些因素尚未明确表达”。从某种意义上说，大型语言模型可以在解释中撒谎或省略细节，就像人类一样。这破坏了人工智能治理的直接方案，例如“让人工智能解释其计划并检查其是否安全”——人工智能可能根本不会透露计划中不安全的部分。

那么该怎么做呢？一种方法是通过更好的训练来提高忠实度：例如，对模型进行微调，并设定一个明确奖励真实解释的次要目标。目前已经有关于忠实解释理论（CoT，让模型遵循既定的基本原理）的监督训练的研究，并且在约束解码方面也取得了一些成功，以确保最终答案遵循思路链（尽管这些方法通常会牺牲原始性能）。另一种方法是开发检测不忠实推理的方法——例如，通过分析模型内部是否存在使用提示中的某个特征（例如提示）的迹象，即使CoT没有提及。Chen等人注意到了一线希望：在至少1-2%的案例中，模型确实揭示了提示 [6]。如果有人监控大量的输出，这些偶尔的诚实承认可能会成为调查的触发因素。但1%非常低。他们还参考了其他研究（Baker 等人，2025），这些研究发现，当非预期行为需要更多推理时，捕获奖励黑客攻击的概率更高。在模型必须真正思考黑客攻击的情况下，它更有可能在 CoT 中留下可识别的线索。这提出了一种可能的策略：迫使模型详细计算任何危险请求（而不是条件反射式地回答），希望它能有所行动。然而，这并非万无一失。

总而言之，思路链是一把双刃剑：它可以提高性能并让我们一窥模型的思维，但如果没有诚实的保证，它也可能让我们陷入一种虚假的安全感。“更难任务悖论”强调，随着人工智能解决更复杂的问题（我们最需要透明度），其自我报告的可靠性可能会降低。这促使人们研究量化和提高思路链忠实度，将其作为人工智能安全的关键途径。

迈向人工智能的认识论：涌现能力和思路链的忠实性

一、涌现能力：真实现象还是测量幻象

二、当模型没有表达出它们的想法时：思路链的忠实性

相关资讯

哥德尔90年前的「不完备性定理」，奠定了计算机与AI的理论基础

AI红队：构建安全AI只是梦想

知乎直答：AI 搜索产品从 0 到 1 实践探索