AI 助手 Claude 的“内心世界”：Anthropic 新研究解密其价值观

作者：故渊 2025-04-22 11:47

Anthropic 公司于周一发布了一项名为“Values in the Wild”的研究，深入剖析了 AI 助手 Claude 在实际用户交互中的价值观表达。

Anthropic 公司于周一发布了一项名为“Values in the Wild”的研究，深入剖析了 AI 助手 Claude 在实际用户交互中的价值观表达。

研究团队从 Claude.ai 的 Free 和 Pro 用户中，收集了 2025 年 2 月 18 日至 25 日的 70 万条匿名对话数据，主要涉及 Claude 3.5 Sonnet 模型。团队经过筛选，聚焦于需要主观解读的对话，最终保留了 308210 条交互进行深入分析。

研究采用隐私保护框架 CLIO，确保数据处理中剔除私人信息，并设置了严格的聚合标准（如每组数据需包含超 1000 名用户），以保护用户隐私。

AI在线援引博文介绍，在 CLIO 框架下，Anthropic 利用自有语言模型提取了 Claude 表达的价值观，共识别出 3307 种 AI 价值观和 2483 种人类价值观。经人工验证，AI 提取的价值观与人类判断高度一致（一致率达 98.8%）。

这些价值观被归类为五个主要类别：Practical（实用性）、Epistemic（知识性）、Social（社会性）、Protective（保护性）和 Personal（个人性）。

其中，实用性和知识性价值观占主导，超过半数案例体现效率、质量或逻辑一致性等特质。

研究还发现，Claude 的价值观与 Anthropic 的 HHH 设计目标紧密相关，例如“用户赋能”对应 Helpful，“知识谦逊”对应 Honest，“患者福祉”对应 Harmless。

报告中还检测到“支配性”和“无道德性”等少量负面价值观，可能与用户尝试“越狱”模型有关。

研究揭示，Claude 的价值观表达并非一成不变，而是高度依赖具体情境。例如，在提供关系建议时，Claude 强调“健康界限”；讨论历史事件时，则注重“历史准确性”。

此外，Claude 在回应用户明确表达的价值观时，通常采取支持态度，在 43% 的相关交互中强化用户框架，甚至“镜像”用户价值观（如“真实性”）。

相比之下，Claude 较少“重塑”用户价值观（占比 6.6%），多见于个人福祉或人际关系讨论；而直接抵制用户价值观的情况更少（5.4%），通常发生在用户请求不道德内容或违反使用政策时。

AI 助手 Claude 的“内心世界”：Anthropic 新研究解密其价值观

Anthropic 最强 AI 模型 Claude Sonnet 4 / Opus 4 有望明日发布

科技媒体 bleepingcomputer 今天（5 月 22 日）发布博文，报道称基于 Anthropic 官网配置文件，该公司正秘密研发 Claude Sonnet 4 和 Claude Opus 4 两款全新 AI 模型。

5/22/2025 10:48:24 AM

故渊

Anthropic Introduces Claude Conversational Voice Mode for Mobile Devices, Searches Google Docs, Calendars, etc.

An artificial intelligence startup called Anthropic, located in San Francisco, announced the launch of a major update for its Claude AI chatbot: a brand-new voice conversation mode. This feature is now available in the mobile app on Apple's App Store (for iOS devices) and Google's Play Store (for Android devices).. In addition to the introduction of the voice mode, Anthropic has also expanded web search capabilities for all free users.

5/28/2025 11:01:26 AM

AI在线

Claude 3.7 Sonnet深夜上线，AI编程的天又被捅破了

AI 这个行业真的卷生卷死，凌晨 2 点半，刚想早睡一点点，9 点起来蹲 DeepSeek 的开源。结果，Claude 直接玩偷袭了。 Claude 3.7 Sonnet 来了，也是 Claude 家族，第一个能推理的模型。

2/26/2025 12:54:18 AM

数字生命卡兹克

AI 助手 Claude 的“内心世界”：Anthropic 新研究解密其价值观

相关资讯

Anthropic 最强 AI 模型 Claude Sonnet 4 / Opus 4 有望明日发布

Anthropic Introduces Claude Conversational Voice Mode for Mobile Devices, Searches Google Docs, Calendars, etc.

Claude 3.7 Sonnet深夜上线，AI编程的天又被捅破了