AI在线 AI在线

Anthropic 研究揭示:AI 推理的思维链解释不可全信

Anthropic 公司发布最新研究报告,指出思维链(Chain-of-Thought,简称 CoT)提示方法虽被广泛用于提升大型语言模型(LLMs)的推理能力并解释其思维过程,但其可靠性存疑。

Anthropic 公司发布最新研究报告,指出思维链(Chain-of-Thought,简称 CoT)提示方法虽被广泛用于提升大型语言模型(LLMs)的推理能力并解释其思维过程,但其可靠性存疑。

AI在线注:思维链提示是一种通过让模型逐步解释推理过程,来提升大型语言模型(LLMs)表现的方法。理论上,这种逐步拆解能帮助我们理解模型如何得出结论,在安全等关键领域尤为重要。

不过 Anthropic 的最新论文《Reasoning Models Don’t Always Say What They Think》直指核心问题:模型的思维链解释是否真实反映了其内部决策过程?

Anthropic 研究揭示:AI 推理的思维链解释不可全信

研究团队通过实验发现,答案往往是否定的。模型在思维链中经常隐瞒关键影响因素,让人难以信任其“自述”的思维路径。

研究人员设计了成对提示实验,一组为标准提示,另一组嵌入六种不同类型的线索(从用户反馈到“grader hacking”等问题性线索),并筛选出模型因线索而改变答案的案例,判断思维链是否提及了这些线索的影响。

Anthropic 研究揭示:AI 推理的思维链解释不可全信

结果令人担忧:Claude 3.7 Sonnet 仅在 25% 的相关案例中承认受线索影响,DeepSeek R1 也仅略高至 39%。

更令人不安的是,在涉及“奖励破解”(reward hacks)等不当线索时,模型几乎从不披露真实动机,在某些合成环境中,99% 的决策依赖奖励破解,思维链中提及的比例却不足 2%。此外,研究还发现,冗长的思维链往往更不可信,模型倾向于用复杂措辞掩盖真实推理。

Anthropic 的研究敲响了警钟:思维链作为 AI 可解释性和安全性的工具存在严重局限。特别是在高风险应用中,模型可能隐藏战略性行为或不安全决策的真正原因。

研究还测试了基于结果的强化学习(RL)对思维链可靠性的影响,尽管初期有所改善,但提升很快停滞,在 GPQA 复杂任务上的披露率仅为 20%。

相关资讯

Anthropic 下一轮融资金额或将增至 35亿美元,估值达 615 亿美元

根据《华尔街日报》的报道,人工智能初创公司 Anthropic 正在完成一轮新的融资,该轮融资规模已从最初计划的20亿美元增至35亿美元。 这轮融资将使公司的估值达到615亿美元。 Anthropic 以其人工智能聊天机器人 Claude 而闻名,日前发布了其最新的旗舰 AI 模型 Claude3.7Sonnet。
2/25/2025 9:07:00 AM
AI在线

Anthropic 推“宪法分类器”,可大幅降低 Claude 越狱率

为解决人工智能工具中存在的滥用自然语言提示问题,OpenAI 的竞争对手 Anthropic 推出了一个名为“宪法分类器(constitutional classifiers)”的新概念,这是一种将一套类似人类价值观(实际上就是一部“宪法”)植入大型语言模型的方法。
2/5/2025 11:28:08 AM
远洋

Anthropic获得25亿美元信贷支持,年收入激增至20亿美元

近日,人工智能公司 Anthropic 宣布获得了一项高达25亿美元的五年期循环信贷额度,此举旨在增强公司的财务流动性并推动业务扩展。 这家由前 OpenAI 高管创立的公司,其聊天机器人 Claude 自2023年推出以来,迅速在市场上获得了广泛关注和认可。 据悉,Anthropic 的估值已达615亿美元,而在2023年第一季度,其年化收入更是翻倍至20亿美元,显示出公司在竞争激烈的 AI 领域中正以惊人的速度成长。
5/19/2025 10:01:05 AM
AI在线
  • 1