AI在线 AI在线

AI 助手 Claude 的“内心世界”:Anthropic 新研究解密其价值观

Anthropic 公司于周一发布了一项名为“Values in the Wild”的研究,深入剖析了 AI 助手 Claude 在实际用户交互中的价值观表达。

Anthropic 公司于周一发布了一项名为“Values in the Wild”的研究,深入剖析了 AI 助手 Claude 在实际用户交互中的价值观表达。

研究团队从 Claude.ai 的 Free 和 Pro 用户中,收集了 2025 年 2 月 18 日至 25 日的 70 万条匿名对话数据,主要涉及 Claude 3.5 Sonnet 模型。团队经过筛选,聚焦于需要主观解读的对话,最终保留了 308210 条交互进行深入分析。

研究采用隐私保护框架 CLIO,确保数据处理中剔除私人信息,并设置了严格的聚合标准(如每组数据需包含超 1000 名用户),以保护用户隐私。

AI在线援引博文介绍,在 CLIO 框架下,Anthropic 利用自有语言模型提取了 Claude 表达的价值观,共识别出 3307 种 AI 价值观和 2483 种人类价值观。经人工验证,AI 提取的价值观与人类判断高度一致(一致率达 98.8%)。

这些价值观被归类为五个主要类别:Practical(实用性)、Epistemic(知识性)、Social(社会性)、Protective(保护性)和 Personal(个人性)。

其中,实用性和知识性价值观占主导,超过半数案例体现效率、质量或逻辑一致性等特质。

研究还发现,Claude 的价值观与 Anthropic 的 HHH 设计目标紧密相关,例如“用户赋能”对应 Helpful,“知识谦逊”对应 Honest,“患者福祉”对应 Harmless。

报告中还检测到“支配性”和“无道德性”等少量负面价值观,可能与用户尝试“越狱”模型有关。

研究揭示,Claude 的价值观表达并非一成不变,而是高度依赖具体情境。例如,在提供关系建议时,Claude 强调“健康界限”;讨论历史事件时,则注重“历史准确性”。

此外,Claude 在回应用户明确表达的价值观时,通常采取支持态度,在 43% 的相关交互中强化用户框架,甚至“镜像”用户价值观(如“真实性”)。

相比之下,Claude 较少“重塑”用户价值观(占比 6.6%),多见于个人福祉或人际关系讨论;而直接抵制用户价值观的情况更少(5.4%),通常发生在用户请求不道德内容或违反使用政策时。

AI 助手 Claude 的“内心世界”:Anthropic 新研究解密其价值观

相关资讯

Claude 3.7 Sonnet深夜上线,AI编程的天又被捅破了

AI 这个行业真的卷生卷死,凌晨 2 点半,刚想早睡一点点,9 点起来蹲 DeepSeek 的开源。 结果,Claude 直接玩偷袭了。 Claude 3.7 Sonnet 来了,也是 Claude 家族,第一个能推理的模型。
2/26/2025 12:54:18 AM
数字生命卡兹克

Anthropic 的 Claude Code 工具存漏洞,导致部分系统“变砖”

Anthropic 最新推出的编码工具 Claude Code 遭遇了一些技术问题。据 GitHub 上的用户报告,该工具的自动更新功能存在漏洞,导致部分工作站出现不稳定甚至无法正常运行的情况。
3/7/2025 3:39:58 PM
远洋

Anthropic 推出 Claude Max 订阅计划,月费最高 200 美元

Anthropic宣布推出Claude Max订阅计划,提供两种高价选项,挑战OpenAI的ChatGPT Pro。新计划速率限制更高,用户可优先体验最新AI模型。公司还探索教育领域项目,应对AI开发高成本。#AI订阅##ClaudeMax#
4/10/2025 7:44:10 AM
远洋
  • 1