AI在线 AI在线

Anthropic 开源“思维追踪”工具,可视化揭秘 AI 内部逻辑

Anthropic 昨日(5 月 29 日)发布博文,宣布推出“电路追踪”(Circuit Tracer)开源工具,以图形化方式,追踪并展示 AI 大语言模型的内部思维过程。

Anthropic 昨日(5 月 29 日)发布博文,宣布推出“思维追踪”(Circuit Tracer)开源工具,以图形化方式,追踪并展示 AI 大语言模型的内部思维过程。

该工具通过构建“归因图”(Attribution Graph),帮助研究者可视化模型内部运作,并支持交互式探索。这一项目由 Anthropic Fellows 程序的参与者与专注 AI 解释性研究的 Decode Research 团队联合推动,旨在提升 AI 安全性。

Anthropic 开源“思维追踪”工具,可视化揭秘 AI 内部逻辑

Circuit Tracer 已在 GitHub 平台以开源库形式发布,研究者可通过由 Decode Research 运营的 Neuronpedia 平台,使用交互式前端查看“归因图”。

Anthropic 开源“思维追踪”工具,可视化揭秘 AI 内部逻辑

用户使用该工具,不仅能生成自定义的归因图,追踪支持模型的内部逻辑,还能对图形进行标注、分享,甚至通过调整特征值观察模型输出的变化,从而验证研究假设。

Anthropic 表示,当前对 AI 内部结构的理解远远落后于其功能进步。开源这些工具将助力更广泛的社区深入探究语言模型的内部运作,理解模型行为,并为工具的改进和扩展提供可能。

Anthropic 开源“思维追踪”工具,可视化揭秘 AI 内部逻辑

AI在线附上参考地址

  • Open-sourcing circuit tracing tools

  • GitHub 页面

  • gemma-2-2b Attribution Graph | Neuronpedia

相关资讯

Anthropic重磅开源!“电路追踪”工具解锁AI大脑,揭秘大模型决策全过程

近年来,大语言模型(LLM)的快速发展为人工智能领域带来了前所未有的突破,但其内部决策过程却常常被视为“黑盒子”,难以捉摸。 5月29日,AI研究领域的明星公司Anthropic发布了一项重大开源成果——“电路追踪”(Circuit Tracing)工具,为破解大模型的内部工作机制提供了全新视角。 这一工具不仅能帮助研究人员深入探索AI的“思考”过程,还为推动更透明、可控的AI发展迈出了重要一步。
5/30/2025 10:01:14 AM
AI在线

Claude Mobile App Voice Conversation Beta Version Released with Schedule Inquiry and Document Search Support

Anthropic has recently announced the launch of a beta version of the voice conversation feature for its AI assistant Claude's mobile application, providing users with a more convenient interactive experience. This feature supports voice commands for tasks such as checking schedules, searching documents, and sending emails, significantly enhancing mobile productivity. Currently, the beta version only supports English, but Anthropic plans to roll out multi-language support to global users in the coming weeks.Claude’s voice mode adopts a "push-to-talk" mechanism where users need to manually click to send voice commands.
5/28/2025 11:01:21 AM
AI在线

Anthropic 发布首份 AI 经济指数报告:软件工程师、作家成 AI 应用先锋

Anthropic 公司昨日(2 月 10 日)发布了首份经济指数(Economic Index)报告,软件工程师和作家率先拥抱 AI,并表明现阶段 AI 的定位并非替代者,而是协作工具。
2/11/2025 1:48:28 PM
故渊
  • 1