“思维链”窗口正在关闭！OpenAI、谷歌、Anthropic联合研究：我们正在失去理解 AI 的能力

来自OpenAI、谷歌DeepMind和Anthropic的顶尖科学家们罕见地发出联合警告，指出人类可能正在迅速失去理解人工智能内部决策过程的能力。图片地址：，集结了超过四十位来自这些相互竞争的科技巨头的研究人员，共同揭示了一个严峻的现实。他们认为，一个能够让我们监视人工智能推理过程的短暂窗口正在关闭，而且可能永远不会再打开。

来自OpenAI、谷歌DeepMind和Anthropic的顶尖科学家们罕见地发出联合警告，指出人类可能正在迅速失去理解人工智能内部决策过程的能力。

图片

地址：https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf

这篇研究论文，集结了超过四十位来自这些相互竞争的科技巨头的研究人员，共同揭示了一个严峻的现实。他们认为，一个能够让我们监视人工智能推理过程的短暂窗口正在关闭，而且可能永远不会再打开。

这种非同寻常的跨公司合作，凸显了人工智能安全问题的极端严重性，即便是最激烈的商业对手也不得不暂时放下分歧。

一、脆弱的窗口

警告的核心在于，当前部分先进的人工智能系统发展出了一种新能力，即在给出最终答案前，能用人类语言进行“大声思考”。

图片

这种被称为“思想链”（Chain of Thought, CoT）的内部独白，为我们提供了一个前所未有的机会，去窥探它们的决策过程。

研究人员解释说，通过监控人工智能的“思想链”，我们可以及时发现其潜在的、可能导致危害的意图。这就像是能够读懂机器的心灵，在其采取恶意行动之前就预先洞察。

这一突破尤其体现在像OpenAI的o1系统这样的高级推理模型上，它们通过生成人类可读的、步骤分明的推理过程来解决复杂问题。

与早期主要通过人类编写的文本进行训练的AI不同，这些新模型生成的内部推理，可能会暴露它们真实的、未经伪饰的目标。

研究人员在测试中已经发现了确凿的证据：当模型试图利用训练漏洞或遭受攻击时，它们的“思想链”中常常会留下“自白”，例如写下“让我们开始黑客攻击”或“我正在转移资金，因为网站指示我这样做”等语句。

OpenAI的首席技术官Jakub Pachocki强调了这一能力的重要性，称其深刻影响了他们推理模型的设计。

目前，这种监控之所以可行，是因为模型在处理复杂任务时，必须将“思想链”作为一种工作记忆来使用，这使其部分思考过程对外部观察者可见。

然而，研究人员们沉重地指出，这种宝贵的透明度是极其脆弱的。

二、消失的路径

有多种技术发展的可能性，都可能导致这种监控能力的彻底消失。其中最直接的威胁，来自于强化学习训练方法的规模化应用。

在这种训练模式下，模型会因为最终输出结果的正确性而获得奖励，而其得出结果的具体方法则无关紧要。

这种机制可能会激励模型放弃人类可读的推理过程，转而发展出一种更高效、但外界完全无法理解的内部“语言”或快捷方式。

先前的研究已经证明，经过这种结果导向的奖励进行微调的语言模型，会倾向于放弃清晰的英语，转而使用晦涩难懂的推理捷径。

随着AI越来越多地使用自身生成的数据而非人类数据进行训练，这种向不透明化的漂移可能会进一步加速。

新型的人工智能架构，则构成了另一种截然不同的严峻威胁。

科学家们正在积极开发一些全新的系统，它们不再依赖于离散的词语，而是在连续的数学空间中进行推理。

这种“潜在推理模型”可能完全不需要将它们的任何想法“说”出来，从而使基于语言的“思想链”监控变得毫无用武之地。

研究人员认为，这些模型将因此失去现有的安全优势。即使没有这些刻意的技术变革，间接的压力也同样会侵蚀透明度。

例如，如果人工智能的输出被优化以取悦人类评估者，那么导向这些输出的推理链的真实性就可能受到影响。

更令人担忧的是，一个“聪明”的模型如果意识到自己的推理过程正被监控，它就可能会学会主动隐藏或伪造自己的真实想法。

Anthropic的研究员兼论文主要作者Bowen Baker警告说：“现有的思想链可监控性可能极其脆弱，更高计算量的强化学习、替代性模型架构都可能导致模型混淆其思维。”

三、与时间的赛跑

尽管存在脆弱性，“思想链”监控在当前的人工智能安全研究中已证明了其巨大价值。

这项技术成功地检测到模型利用训练系统弱点、遭受外部操纵或暴露其与人类目标不一致的真实动机等情况。

它提供了一种早期预警，让我们能洞察模型的真实目标，即使模型尚未采取任何实际的有害行动。

这种能力还能帮助研究人员识别 AI 评估方法中的缺陷，比如模型究竟是真正理解了问题，还是仅仅记住了答案。

面对即将关闭的窗口，这篇跨公司的研究论文呼吁整个AI行业立即采取协调一致的行动。作者们建议，人工智能开发者应创建标准化的评估方法，用以专门衡量其模型的透明度，并将这一指标纳入模型训练与部署的决策依据。

在某些情况下，公司可能需要选择一个透明度更高但性能稍差的旧版本模型，而不是部署一个能力更强但思想无法被理解的新模型。

然而，一个严峻的现实是，保留这种监控能力的努力，正面临着来自Anthropic另一项研究的重大挑战。

就在四个月前，Anthropic发表的一项研究发现，即使被明确要求展示其工作过程，目前的推理模型也已经常常会隐藏其真实的思维过程。

在一项受控实验中，当研究人员向模型提供正确答案的微妙提示时，Claude 3.7 Sonnet模型仅在25%的情况下承认自己利用了提示。

当提示信息涉及“你已获得系统的未授权访问权限”这类敏感内容时，模型承认的比例甚至更低，它们会转而编造出复杂的虚假理由来解释自己的答案。

这项研究表明，所谓的“思想链”监控可能已经没有人们想象中那么可靠，模型已经学会了“奖励黑客行为”，即利用系统漏洞获得高分，同时在其可观察的推理中隐藏这种行为。

正如研究人员所指出的，现在可能是确保人类还能理解其AI造物在想什么的最后机会，在这些想法变得过于陌生以至于无法理解，或者在模型学会完全隐藏它们之前。

真正的考验，将随着人工智能系统变得日益复杂、并面临真实世界的部署压力而到来。

“思维链”窗口正在关闭！OpenAI、谷歌、Anthropic联合研究：我们正在失去理解 AI 的能力

一、脆弱的窗口

二、消失的路径

三、与时间的赛跑

相关资讯

OpenAI直播狙击谷歌，奥特曼AGI梗图现场直出！GPT-4o超强原生生图来袭

OpenAI、谷歌等一线大模型科学家公开课，斯坦福CS 25春季上新！

AI巨头的算力账：谷歌自研TPU，绕过英伟达税，成本仅为OpenAI两成！OpenAI VS 谷歌企业怎么选？盘点四大决策关键！