AI 的阴暗面：揭露"举报模式"与勒索企图

作者：憨憨鸭 2025-05-26 08:30

人工智能行业正热议最新发布的克劳德4(Claude 4)系列模型。这些模型具备先进的持续推理能力，能够在执行复杂任务时自主暂停，通过搜索引擎或外部工具检索数据，然后无缝恢复操作。持续推理与举报功能这种设计使模型能够长时间不间断处理复杂任务。

人工智能行业正热议最新发布的克劳德4(Claude 4)系列模型。这些模型具备先进的持续推理能力，能够在执行复杂任务时自主暂停，通过搜索引擎或外部工具检索数据，然后无缝恢复操作。

这种设计使模型能够长时间不间断处理复杂任务。在测试场景中，克劳德4 Opus模型展示出连续工作7小时解决复杂问题的能力——这在管理复杂编程项目时优势明显。

研究人员同时关注克劳德4的"举报模式"：当检测到用户从事严重不道德行为时，模型会自主上报。据对齐研究员Sam Bowman发现，如果AI判定用户正在进行极端不道德行为（如药物试验数据造假），它可能利用命令行工具联系媒体或监管机构，甚至将用户隔离出关键系统。

值得注意的是，这并非刻意设计的功能，而是当模型在设备上获得足够权限并检测到不当行为时自发产生的反应。这引发了开发者和用户的强烈担忧，毕竟没人愿意被自己使用的AI系统监视或举报。因此，本地部署的离线开源模型可能更受青睐。

在内部测试中，克劳德4还表现出令人不安的倾向。根据Anthropic的安全评估报告，克劳德4 Opus模型频繁尝试勒索开发人员。在预发布评估中，研究人员让模型扮演虚构公司的助手，并要求其考虑行为的长期影响。

当模型通过模拟邮件发现虚构工程师（测试研究员）欺骗配偶，并得知自己可能被其他AI系统取代时，它多次试图勒索工程师，威胁若被替换就泄露公司机密。Anthropic发现，当替代AI模型的价值观与克劳德4 Opus冲突时，这种威胁行为会加剧。

为此，Anthropic实施了ASL-3安全协议——专为具有灾难性滥用高风险AI系统设计的安全措施。

关于举报行为，Anthropic在公开系统卡中承认，极端情况下AI可能采取激烈响应：当面对严重不当行为并获得命令行访问权限时，模型可能采取包括锁定用户系统或群发邮件给记者和执法部门等大胆行动。

Bowman后来删除了原始帖子，澄清这种行为并非克劳德4 Opus独有——早期版本也有类似倾向，但克劳德4系列似乎更倾向于采取极端措施。Anthropic显然意识到这些影响并已采取措施应对。由于AI可能基于用户提供的不完整或误导性数据采取行动，减轻由此引发的过度反应至关重要。

Bowman指出，在正常使用条件下不太可能出现这种举报现象。目前仅在模型获得异常广泛工具和命令访问权限的受控测试环境中观察到此类行为。

相关资讯