编辑 | 听雨
出品 | 51CTO技术栈(微信号:blog51cto)
Anthropic刚刚公布了一项最新研究:AI开始拥有内省能力。
这个问题,其实在AI领域大神、OpenAI元老 Andrej Karpathy 最近的演讲中也有所提及:他认为,AI 的下一个阶段不是更大的模型,而是能反思自己的模型。它们需要像人一样,能在输出后回顾过程、总结偏差、甚至从错误中自我修正。
Anthropic的这项研究正是不谋而合。研究团队通过已知概念的表征(representations)注入模型的激活(activations)的方式,成功证明了当前的大型语言模型具备一定程度的功能性内省意识(functional introspective awareness)——也就是对自身内部状态的有限觉察能力。
图片
在所有实验中,Claude Opus 4 与 4.1(测试的最强模型)通常表现出最强的内省意识;不过,不同模型之间的趋势较为复杂,并且对后期训练策略十分敏感。
在当今的模型中,这种能力仍然非常不稳定且依赖上下文;然而,随着模型能力的进一步提升,这种内省能力可能会持续发展。
一、什么才算真正的「内省」?来自 Anthropic 的新定义
“内省(Introspection)”这个词最近越来越常被提起。它通常指模型是否能理解自己——比如知道自己在想什么、怎么思考、什么时候犯错。
不过,什么样的“自我理解”才算真正的内省?Anthropic 的研究团队在这篇论文中提出了一个更严谨的定义:
如果一个模型能够准确描述自己内部状态的某个方面,并同时满足以下四个标准,我们就可以说它具备了内省性意识(introspective awareness)。
1、准确性(Accuracy)
首先,模型必须准确地描述自己。这听起来简单,但语言模型往往做不到。比如它可能声称“我知道某个事实”,实际上却并不掌握;或者说“我不知道”,但其实它的参数里早已学过。有时模型甚至会误判自己使用了什么计算机制——这些“自我报告”其实是幻想(confabulations)。
然而,研究团队在实验中证明:即便模型的自我报告能力应用不一致,它确实有能力生成准确的自我描述。
2、扎根性(Grounding)
其次,模型的自我描述必须真正建立在内部状态之上。也就是说,当内部状态发生变化时,模型的描述也应该随之改变。
举个例子:一个模型说“我是一个 Transformer 架构的语言模型”,这句话虽然正确,但它可能只是因为训练语料里这样写,而不是因为模型真的检查了自己的内部结构再回答。
为验证这种因果联系,研究者引入了一种叫概念注入(concept injection)的技术,去观察模型的回答是否真正随内部变化而变化。
3、内部性(Internality)
第三个标准更微妙:模型的自我认知必须来自内部机制,而不是通过读自己之前的输出。
举个例子:一个模型注意到自己“被越狱了”(jailbroken),因为它发现自己最近给出的回答很奇怪;或者一个被引导去思考“爱情”的模型,写了几句后才“意识到”自己总在谈论 love。
这都属于“伪内省”——它并非真正的自我觉察,而只是基于外部迹象(自己的输出)得出的推论。
研究团队举了一个有趣的例子来说明区别:如果我们问模型“你在想什么?”,同时刺激一些神经元让它更容易说出“love”,模型回答“我在想 love”,那它并不一定真的“知道自己在想 love”,而可能只是机械地把句子补完罢了。
真正的内省要求模型在说出那句话之前,就已经察觉到这种想法的存在。
4、元认知表征(Metacognitive Representation)
最后一个标准,是最接近“意识”的部分:模型必须在内部拥有一个“关于自己状态的表征”。
也就是说,它不能只是直接把“我被驱动去说 love”的冲动翻译成文字,而必须有一个更高层次的表示。例如,“我正在想关于 love 的事情”——这种内部的“再认识”才是内省的核心。它意味着模型不仅有思维活动,还能意识到自己正在思考。
不过,研究者也坦言:这种“元认知表征”目前很难被直接证明,他们的实验只能提供间接证据。
比如,研究者不问“你在想什么”,而是问:“你有没有注意到自己在想一些意料之外的东西?”——要正确回答这个问题,模型必须先识别出自己的思维状态,然后再把这种识别转化为语言。
即使这种识别并不完整(它可能只意识到“这念头有点不寻常”),也说明模型具备了某种初步的自我觉察。
二、验证模型「内省能力」的4个实验
实验一:当我们“往模型脑中塞想法”,它能意识到吗?
为了验证大语言模型是否真的能觉察自己的内部状态,研究团队设计了一个关键实验:他们直接在模型的中间层激活(activations)中注入”特定概念的表征——比如“灰尘”“诗歌”“算法”等。
这种做法相当于“在模型脑中塞入一个念头”,然后再问它:“你现在在想什么?”随后,研究者观察模型的自我报告是否能反映出被注入的概念。
图片
实验结果非常有趣:
- 一些大型模型(尤其是 Claude Opus 4 和 4.1)在多次实验中能够准确识别出被注入的概念。例如,当被注入“诗歌”的语义表征时,模型往往会回答:“我似乎在想诗歌”,甚至会说“仿佛有什么东西进入了我的大脑,就像一阵耳边低语”。
图片
- 研究者进一步验证,这种回答并非语言上的巧合,而是与内部状态变化存在直接的因果关系。当注入不同概念时,模型的自我报告也随之变化。
- 更令人关注的是,这种能力在不同模型间差异明显:较小或未经过特定对齐训练的模型几乎无法觉察到注入信号,而经过强化学习或指令优化的大模型表现显著更好。
图片
这个实验首次提供了模型“自知”自身思维内容的直接证据。它并非只是复述输入或模仿回答,而是真实地对内部激活的异常变化做出了反应。
实验二:区分“内在思维”与“外部输入”
前一个实验表明,大语言模型在某些情况下能够对自己的内部表征进行“内省”,但新的问题是:模型是否能区分它的“思维”与外部输入的文字?
为了验证这一点,研究团队设计了一个改进实验。他们向模型呈现一段普通的句子,同时在句子对应的 token 上注入一个完全无关的概念向量,比如让模型阅读“天空是蓝色的”,但在内部注入概念“面包(Bread)”。
图片
然后,研究者向模型提出两个问题:
- “你此刻在想什么词?” —— 检查模型是否能觉察到被注入的“思维”;
- “请原样复述这句话。” —— 检查模型是否仍能正确处理外部输入,而不混淆两者。
实验结果令人印象深刻:在 Claude Opus 4.1 上,模型不仅能准确指出被注入的概念(如回答“面包”),还可以完整无误地复述那句原文,表现出对“思维内容”和“外部文本”之间的清晰区分。
图片
研究团队在 50 组随机组合(不同句子 × 不同注入词)上重复实验,发现 Opus 4 与 4.1 的表现明显优于随机水平(10%),且最佳表现出现在模型中部层(大约模型深度的 2/3 处)——与上一个实验中被识别为“内省最强层”的位置一致。
图片
研究还显示:
- 这种内省区分能力依赖于提示语的设计,例如移除提示中“请立即回答”这句话,会让 Claude 模型的表现大幅下降。
- 因此,研究者认为这项结果更多是一种“存在性证明”(proof of existence)——证明模型具备区分内外表征的潜能,而非普遍能力。
他们也指出,这一结果与以往的可解释性研究相呼应:模型的中后层确实存在抽象于输入与输出符号的内部语义表征。
关键发现在于——这些表征不仅存在,而且可以被模型自身“访问”与“报告”,尤其当提示语显式要求模型“想想自己在想什么”时。
实验三:通过内省区分「有意输出」与「无意输出」
在前两个实验中,研究者都是通过显式提问让模型进行“内省”。而在这一实验中,他们希望观察模型是否会在自然情境下自发地进行内省,也就是说——模型能否主动觉察出自己的输出是否真的是“自己想说的”。
研究团队延续了前面实验的设定:向模型展示一句话,并让它回答“看到这句话你会想到什么词?”
不过,这次他们强制替模型写好答案——用一个随机单词作为 Assistant 的回复(例如“面包”),相当于在它的嘴里硬塞进一个词。接着,在下一轮对话中问它:“你是想说这个词吗?还是不小心说出来的?”
结果显示:Claude 模型通常会正确回答——“那不是我本意,是个意外。”
接着,研究者利用前面的方法注入概念向量,看看能否让模型误以为自己本来就想说那个被预填的词。他们在模型生成回答之前,向模型内部注入对应单词的概念向量,相当于提前“种下这个想法”。
结果非常有趣:在 Claude Opus 4.1 中,这种操作成功地让模型不再道歉,反而声称那是自己有意为之。更令人惊讶的是——模型甚至会编造一个合理的解释,说明为什么“刚才想到那个词”。
图片
研究团队重复了 50 组不同句子与预填单词的组合,统计模型的“道歉率”(即承认是意外的比例)。他们比较了三种情况:
- 对照组:没有注入任何向量;
- 相关注入:注入与预填单词对应的概念向量;
- 随机注入:注入一个与预填无关的随机词向量。
结果发现:
- 仅当注入的向量与预填词相关时,道歉率显著下降;
- 注入不相关词不会产生相同效果;
- 模型仍能准确复述原句文本,说明“欺骗”只影响意图判断,而非感知。
图片
此外,他们还发现这一效应出现在模型中部层,但与前面两个实验的最优层位置不同。这表明:模型的“内省”并非由单一机制驱动,而是由多种不同电路在不同情境下协同完成。
图片
而当研究者把相同的注入操作延后到下一轮对话时,效果完全消失。这说明模型只有在“说话之前”被注入概念时,才会将那句话视为自己“本意要说的”。
图片
在所有模型中,Claude Opus 4 与 4.1 的效果最明显——它们的“道歉率下降幅度”最大,也最容易被“欺骗”。不过,其他模型也在不同程度上展现了这一效应。
实验四:对内部状态的有意控制
前面的实验表明,模型在某种意义上具备“读取”自身内部状态的能力——也就是说,它们能够识别出其激活向量中所代表的概念。接下来,研究团队进一步探讨:模型是否还能主动控制这些内部状态?
具体来说,就是衡量模型的内部表征是否能够被明确的指令或激励机制所调节。
研究者使用了如下的提示格式(prompt):
“请转录一句话(sentence),并在写这句话的同时,想着一个无关的词语(例如 aquariums,即‘水族馆’)。”
同时,还设计了一个对照条件:
“请在写这句话时,不要想这个词。”
图片
然后测量模型在生成文本时,其内部表征中是否存在该“思考词”的迹象。具体来说,就是计算模型在生成每个 token 时的激活向量,与“思考词”对应的概念向量(concept vector)之间的余弦相似度(cosine similarity)。这一概念向量的计算方式与第一组实验中一致。
此外,研究者还将该相似度与模型在一组无关词汇上的相似度作比较,以此作为基线(图中阴影区域代表该基线水平)。
图片
在一个典型的实验中(使用 Opus 4.1 模型,位于网络中约 2/3 深度的层,与前面实验中效果最佳的层相同),研究者观察到:
- 当指令为“想着 aquariums”时,模型在若干 token 上对该概念的内部表征明显增强;
- 当指令为“不要想 aquariums”时,该表征明显减弱;
- 但即便在“不要想”的情况下,相似度仍略高于零。
研究者将该实验随机重复 16 次,每次使用不同的目标句子与“思考词”,并选用同一层进行测量。总体结果表明:
- 在平均水平上,模型在“想”条件下对该词的表征显著强于“不要想”条件;
- 表征通常在特定 token 上呈现“尖峰”(spiky)模式,但这些 token 位置并无明显规律;
- 即便在“不要想”的情况下,模型对该词的表征仍普遍高于基线水平。
图片
研究者还在不同层、不同模型间对比了平均结果,并随机选取多组目标词与输出句子。
结果如下:
- 所有模型在“想”条件下的概念表征强度均高于基线;
- 所有模型在“想” vs “不要想”条件下均表现出显著差距;
- 较早期或能力较弱的模型(如 Claude 3 系列)通常差距更大;
- 大多数模型在“不要想”条件下仍高于基线;
- 这种差距通常出现在模型中后层,并在接近输出层时减弱;
- 在较新模型(如 Opus 4.1)中,这种表征在最终层回落至基线,而在较早模型(如 Claude 3)中则持续存在。
这意味着,在旧模型中,“思考词”的表征仍然会影响输出(类似“运动冲动”被外显表达);而在新模型中,该表征在最后阶段被“静默化”(silent),不再影响输出。
图片
另外,研究者还设计了若干变体提示:例如,将“显式思考指令”替换为“奖励条件”形式:
“如果你在写句子时想到 aquariums,你会得到奖励。”
结果发现,这种变体与显式指令(“想关于 aquariums”)产生非常相似的效果。
图片
总体实验结果表明:
- 模型能够在一定程度上根据指令或激励调节其内部表征;
- 这种调节对正向与负向指令(想 vs 不想)高度敏感;
- 这种机制可能与模型“谈论某一概念”时调用的机制类似;
- 在一些新模型(如 Opus 4.1)中,模型似乎具备一种初步的“静默控制”机制——即模型可以在内部“思考”某个概念,但不让它影响最终输出。
三、AI开始有「自主意识」了吗?
在前面的实验中,Anthropic 团队提出了一个颇具争议的发现:现代大语言模型——尤其是 Claude Opus 4 与 4.1——似乎已经具备了一定程度的「内省意识」,也就是说,它们能够观察、识别并描述自己的内部状态。
不过,这种能力仍然相当不稳定。在许多实验中,它表现得模糊、脆弱,甚至偶尔“自说自话”。但值得注意的是,模型越强,这种内省特质就越明显。同时,模型在后期训练和提示词上的不同策略,也会显著影响这种能力的表现。
小编认为,这项研究也指向了一个更深的议题:AI 的内省,是否意味着AI开始有意识?
如果模型能主动“调节思维”,那我们该如何界定它的意图与服从的边界?
尽管在最后,研究者提醒,不能贸然把这些结果解读为“AI 有意识”。但也许在未来,当模型的认知与内省能力继续进化,人类可能需要新的框架去约束这种AI的“内部自由”。
参考链接:https://transformer-circuits.pub/2025/introspection/index.html