最近,我们听说人工智能已经学会了思考。OpenAI 的 o1 系列、DeepSeek 的 R1、Claude 的思维模型——这些“大型推理模型”声势浩大地问世,有望在机器解决复杂问题方面取得突破。与之前那些仅仅通过模式匹配完成任务的模型不同,这些系统显然能够进行“真正的”推理,甚至拥有与人类思维相符的内心独白。它们会停顿、思考、再三思量,最终通过看似真实的沉思得出答案。
对于我们这些构建智能代理人工智能系统的人来说,推理能力是真正自主的基石。在 Craine,我们将推理能力定位为遵循脚本的简单自动化与能够适应、制定战略并协调复杂操作的真正人工智能代理之间的关键区别。例如,当我们谈论自主基础设施时,我们本质上依赖于这些系统推理新情况、权衡相互竞争的优先级并在压力下做出合理决策的能力。推理革命有望提供这些能力——人工智能系统能够像熟练的人类操作员一样思考问题,但速度更快、更一致。这一承诺支撑了自主代理管理一切(从云基础设施到业务运营)而无需持续人工监督的整个愿景。
但革命性的主张有一点需要革命性的证据。苹果研究团队的一项新研究《思考的幻觉》提供了这方面的证据,而这并不是我们所期望的。研究人员使用精心控制的谜题环境而不是通常的数学基准,系统地测试了这些推理模型是否真的能够推理,或者它们是否只是非常复杂的模仿。他们的发现挑战了我们所知的关于推理革命的一切。这些模型不仅会在问题变得越来越难时遇到性能瓶颈;它们还会做出一些更奇怪、更令人不安的事情:它们完全放弃思考,在应该最努力的时候减少推理努力。看着马拉松运动员在接近比赛最陡峭的山坡时放弃并放弃,这真是一场悲剧。
为什么谜题比数学考试更胜一筹
苹果的研究人员没有向这些模型抛出更多 MATH-500 问题(这些基准问题可能会被训练数据污染),而是构建了更好的东西:可控的谜题环境。我认为这就像在无法控制交通的公共道路上测试汽车性能,与在可以精确调整每个变量的封闭测试跑道上测试汽车性能之间的区别。研究人员需要干净的实验环境,他们可以像调节音量旋钮一样调节复杂性,同时保持底层逻辑的一致性。
他们使用了四个看似简单的谜题:汉诺塔、西洋跳棋、渡河和积木世界。每个谜题都允许研究人员通过调整一个参数来控制复杂性:更多圆盘、更多西洋跳棋、更多人、更多积木。至关重要的是,这些谜题内置模拟器,不仅可以验证最终答案,还可以验证过程中的每一步。与要么正确要么错误的数学题不同,这些环境让研究人员可以窥视推理过程本身,精确观察模型在何处以及如何出错。这基本上就像是批改期末考试和坐在学生旁边看着他们解答每个试题之间的区别。
令人惊讶的表现前景
苹果研究人员还发现了一些意料之外的发现:推理模型并不会随着问题难度的增加而逐渐变差。相反,研究人员发现了三种截然不同的性能机制,颠覆了传统观念。在低复杂度水平下——你期望任何优秀的人工智能都能处理这类问题——标准大语言模型(LLM) 实际上表现优于那些所谓的高级推理模型。我们指的是更高的准确率和更高的效率。这就像发现福特福克斯比兰博基尼能更快更便宜地带你去杂货店一样。推理模型对简单问题进行了过度思考,将计算资源浪费在了那些需要直接执行的任务的复杂内部思考上。
在中等复杂度范围内,推理模型终于证明了其存在的合理性。所有额外的思考时间都在这里得到了回报,推理模型展现出比标准模型明显的优势。这是大多数基准测试和演示所关注的最佳点——复杂程度足以需要真正的问题解决,但又不会复杂到完全失效。这是一个“金发姑娘区”,推理模型看起来确实令人印象深刻,似乎也验证了所有关于其功能的炒作。
但接下来是第三种情况,事情才真正令人不安。超过一定的复杂度阈值后,两种模型都会经历研究人员所说的“彻底崩溃”——不是逐渐退化,而是彻底失效。准确率降至零。这就像触及事件视界,推理功能完全失效。尤其令人不安的是,无论模型有多少可用的计算预算,这种崩溃都会发生。它们并非耗尽了令牌,也不是达到了上下文限制;而是触及了更根本的问题——在复杂性增加的情况下,维持连贯推理的能力受到了阻碍。
违反直觉的崩溃:解决更难的问题需要更少的思考
随着谜题复杂度的增加,推理模型不仅性能下降,反而减少了思考的投入。尽管拥有充足的令牌预算和计算资源,但当问题需要更仔细的思考时,这些模型的推理轨迹却开始缩短。这就像一位外科医生在复杂的手术中途因为情况变得过于复杂而放下手术刀一样。
研究人员在多个前沿模型(o3-mini、DeepSeek-R1、Claude-3.7-Sonnet with thinking)中追踪了这一“扩展限制”,发现其规律始终如一。随着问题变得越来越复杂,模型最初会增加推理工作量,这与人们预期的直观模式一致。但随后,当接近研究人员设定的各模型的临界复杂性阈值时,发生了一些奇怪的事情:即使问题客观上变得更加困难,推理工作量也开始下降。这些模型并没有达到技术极限——它们的运行速度远低于其代数限制,并且剩余充足的推理预算。
就像之前讨论过的“对齐伪造”一样,这种违反直觉的行为引发了人们对自主系统信任的深刻质疑。如果我们最先进的推理模型在面对真正的复杂性时都能系统地减少工作量,那么当我们将它们部署到现实世界中,而问题并没有明确的难度标签时,会发生什么?在关键任务应用中——无论是管理云基础设施、协调应急响应,还是做出财务决策——我们需要的是能够在情况艰难时挺身而出的系统,而不是在推理能力最关键的时候默默放弃的系统。其影响远超学术基准,涉及到我们日益依赖的人工智能系统的基本可靠性。
深入探究:“思想”内部发生了什么
苹果的研究人员做了大多数人工智能评估完全忽略的事情——他们打开了黑匣子,探究这些模型推理过程中究竟发生了什么。通过分析模型在“思考”过程中生成的中间解,他们揭示了我们刚才讨论的那些性能模式背后的机制。简单问题中的过度思考行为?事实证明,模型通常会在早期识别出正确的解决方案,但随后仍会继续探索错误的路径,将剩余的计算资源浪费在无用的思考上。与此同时,对于模型完全崩溃的复杂问题,推理轨迹显示出更令人不安的情况——它们在整个思考过程中根本无法生成任何正确的解决方案。
研究人员进行了一项实验,这本应是推理模型的一次突破:他们提供了解决汉诺塔难题的完整、循序渐进的算法。想象一下食谱式的说明,模型只需遵循菜谱,而无需发明一道新菜。然而,这些模型在与从头开始解决问题时完全相同的复杂度阈值下失败了。这种限制比创造力或策略更深,指向了更根本的东西。即使解决了问题,这些模型也无法在更长的序列中保持逻辑一致性。当数字填色和抽象推理在同样的点上失败时,我们看到的是架构限制,而不是问题解决的限制。
这对人工智能机构意味着什么
这些发现对我来说尤其令人震惊,尤其是考虑到我们迈向人工智能代理(AI Agency)的轨迹——能够自我修复、自我维持、无需人工干预即可适应和响应的系统。在最近发表的关于 AgentOps 的论文中,预测距离自主代理成为从云基础设施到业务运营等所有领域管理的主流还需要 24-36 个月的时间。但苹果的研究揭示了这一基础中的一个根本性漏洞:如果我们最先进的推理系统在面对真正的复杂性时能够系统地减少工作量,我们又如何能相信它们能够协调运行我们关键系统的自主代理呢?
我们必须思考这对我们正在构建的代理未来意味着什么。当您的工程机构需要排除跨多个微服务的级联故障时,或者当您的安全机构必须应对复杂的攻击媒介时,这些都不是简单且有解决方案的问题。它们正是苹果研究表明推理模型会完全崩溃的那种高复杂性场景。当您依赖自治系统来维持正常运行时间、保护数据或协调应急响应时,随着问题变得越来越困难,推理工作量的减少变得令人恐惧。其影响远远超出了学术基准,还涉及到我们越来越信任的关键业务运营自治系统的可靠性。如果驱动这些自治机构的推理引擎在最需要仔细思考的时候放弃思考,那么整个 AgentOps 愿景将面临一个根本性的瓶颈,无论框架多么复杂都无法克服。
重新调整预期
苹果的研究迫使我们直面一个令人不安的事实:当前的推理模型不仅仅是遇到了性能瓶颈——它们还表现出根本性的扩展限制,这表明它们处理复杂问题的方式存在缺陷。我们面临的并非我们可以通过工程手段规避的逐渐退化,而是随着挑战的加剧,推理工作实际上会减少,这是一个硬性上限。当我们最复杂的人工智能系统在思考最关键的时候系统性地放弃思考时,这并非软件缺陷或训练数据问题。我们面临的是架构约束,它挑战了当前设计的整个推理模型的前提。
其更广泛的影响远不止学术难题,而是我们正在关键基础设施中快速部署的自主系统的基础。如果推理模型无法在复杂场景中保持逻辑一致性——即使提供了明确的算法——这对我们通往真正自主人工智能的道路意味着什么?或许,推理革命并非我们所想的突破,而是一个代价高昂的弯路,它让我们看到当前方法的根本缺陷。问题不在于我们能否突破这些限制,而在于我们是否建立在正确的基础上。当最先进的推理系统随着复杂性的增加而减少工作量时,我们或许需要重新思考的不仅仅是如何构建人工智能,还有我们期望它能够可靠地实现什么。