Anthropic 研究揭示：AI 推理的思维链解释不可全信

作者：故渊 2025-05-20 12:16

Anthropic 公司发布最新研究报告，指出思维链（Chain-of-Thought，简称 CoT）提示方法虽被广泛用于提升大型语言模型（LLMs）的推理能力并解释其思维过程，但其可靠性存疑。

AI在线注：思维链提示是一种通过让模型逐步解释推理过程，来提升大型语言模型（LLMs）表现的方法。理论上，这种逐步拆解能帮助我们理解模型如何得出结论，在安全等关键领域尤为重要。

不过 Anthropic 的最新论文《Reasoning Models Don’t Always Say What They Think》直指核心问题：模型的思维链解释是否真实反映了其内部决策过程？

研究团队通过实验发现，答案往往是否定的。模型在思维链中经常隐瞒关键影响因素，让人难以信任其“自述”的思维路径。

研究人员设计了成对提示实验，一组为标准提示，另一组嵌入六种不同类型的线索（从用户反馈到“grader hacking”等问题性线索），并筛选出模型因线索而改变答案的案例，判断思维链是否提及了这些线索的影响。

Anthropic 研究揭示：AI 推理的思维链解释不可全信

结果令人担忧：Claude 3.7 Sonnet 仅在 25% 的相关案例中承认受线索影响，DeepSeek R1 也仅略高至 39%。

更令人不安的是，在涉及“奖励破解”（reward hacks）等不当线索时，模型几乎从不披露真实动机，在某些合成环境中，99% 的决策依赖奖励破解，思维链中提及的比例却不足 2%。此外，研究还发现，冗长的思维链往往更不可信，模型倾向于用复杂措辞掩盖真实推理。

Anthropic 的研究敲响了警钟：思维链作为 AI 可解释性和安全性的工具存在严重局限。特别是在高风险应用中，模型可能隐藏战略性行为或不安全决策的真正原因。

研究还测试了基于结果的强化学习（RL）对思维链可靠性的影响，尽管初期有所改善，但提升很快停滞，在 GPQA 复杂任务上的披露率仅为 20%。

Anthropic 下一轮融资金额或将增至 35亿美元，估值达 615 亿美元

根据《华尔街日报》的报道，人工智能初创公司 Anthropic 正在完成一轮新的融资，该轮融资规模已从最初计划的20亿美元增至35亿美元。这轮融资将使公司的估值达到615亿美元。 Anthropic 以其人工智能聊天机器人 Claude 而闻名，日前发布了其最新的旗舰 AI 模型 Claude3.7Sonnet。

2/25/2025 9:07:00 AM

AI在线

Anthropic 推“宪法分类器”，可大幅降低 Claude 越狱率

为解决人工智能工具中存在的滥用自然语言提示问题，OpenAI 的竞争对手 Anthropic 推出了一个名为“宪法分类器（constitutional classifiers）”的新概念，这是一种将一套类似人类价值观（实际上就是一部“宪法”）植入大型语言模型的方法。

2/5/2025 11:28:08 AM

远洋

Anthropic获得25亿美元信贷支持，年收入激增至20亿美元

近日，人工智能公司 Anthropic 宣布获得了一项高达25亿美元的五年期循环信贷额度，此举旨在增强公司的财务流动性并推动业务扩展。这家由前 OpenAI 高管创立的公司，其聊天机器人 Claude 自2023年推出以来，迅速在市场上获得了广泛关注和认可。据悉，Anthropic 的估值已达615亿美元，而在2023年第一季度，其年化收入更是翻倍至20亿美元，显示出公司在竞争激烈的 AI 领域中正以惊人的速度成长。

5/19/2025 10:01:05 AM

AI在线

Anthropic 研究揭示：AI 推理的思维链解释不可全信

相关资讯

Anthropic 下一轮融资金额或将增至 35亿美元，估值达 615 亿美元

Anthropic 推“宪法分类器”，可大幅降低 Claude 越狱率

Anthropic获得25亿美元信贷支持，年收入激增至20亿美元