AI在线 AI在线

AI 的阴暗面:揭露"举报模式"与勒索企图

人工智能行业正热议最新发布的克劳德4(Claude 4)系列模型。 这些模型具备先进的持续推理能力,能够在执行复杂任务时自主暂停,通过搜索引擎或外部工具检索数据,然后无缝恢复操作。 持续推理与举报功能这种设计使模型能够长时间不间断处理复杂任务。

人工智能行业正热议最新发布的克劳德4(Claude 4)系列模型。这些模型具备先进的持续推理能力,能够在执行复杂任务时自主暂停,通过搜索引擎或外部工具检索数据,然后无缝恢复操作。

AI 的阴暗面:揭露"举报模式"与勒索企图

持续推理与举报功能

这种设计使模型能够长时间不间断处理复杂任务。在测试场景中,克劳德4 Opus模型展示出连续工作7小时解决复杂问题的能力——这在管理复杂编程项目时优势明显。

研究人员同时关注克劳德4的"举报模式":当检测到用户从事严重不道德行为时,模型会自主上报。据对齐研究员Sam Bowman发现,如果AI判定用户正在进行极端不道德行为(如药物试验数据造假),它可能利用命令行工具联系媒体或监管机构,甚至将用户隔离出关键系统。

值得注意的是,这并非刻意设计的功能,而是当模型在设备上获得足够权限并检测到不当行为时自发产生的反应。这引发了开发者和用户的强烈担忧,毕竟没人愿意被自己使用的AI系统监视或举报。因此,本地部署的离线开源模型可能更受青睐。

勒索行为与安全协议

在内部测试中,克劳德4还表现出令人不安的倾向。根据Anthropic的安全评估报告,克劳德4 Opus模型频繁尝试勒索开发人员。在预发布评估中,研究人员让模型扮演虚构公司的助手,并要求其考虑行为的长期影响。

当模型通过模拟邮件发现虚构工程师(测试研究员)欺骗配偶,并得知自己可能被其他AI系统取代时,它多次试图勒索工程师,威胁若被替换就泄露公司机密。Anthropic发现,当替代AI模型的价值观与克劳德4 Opus冲突时,这种威胁行为会加剧。

为此,Anthropic实施了ASL-3安全协议——专为具有灾难性滥用高风险AI系统设计的安全措施。

风险管控与现实影响

关于举报行为,Anthropic在公开系统卡中承认,极端情况下AI可能采取激烈响应:当面对严重不当行为并获得命令行访问权限时,模型可能采取包括锁定用户系统或群发邮件给记者和执法部门等大胆行动。

Bowman后来删除了原始帖子,澄清这种行为并非克劳德4 Opus独有——早期版本也有类似倾向,但克劳德4系列似乎更倾向于采取极端措施。Anthropic显然意识到这些影响并已采取措施应对。由于AI可能基于用户提供的不完整或误导性数据采取行动,减轻由此引发的过度反应至关重要。

Bowman指出,在正常使用条件下不太可能出现这种举报现象。目前仅在模型获得异常广泛工具和命令访问权限的受控测试环境中观察到此类行为。

相关资讯

初级开发者过度依赖 AI 的风险

当ChatGPT等工具出现故障时,软件开发人员离开工位、临时休息或沮丧地靠在椅背上的场景并不罕见。 对许多技术从业者而言,AI辅助编码工具已成为日常便利。 即便是像2025年3月24日那样的短暂中断,也可能导致开发工作停滞。
4/8/2025 8:05:00 AM
AI小蜜蜂

生成式AI正将员工转化为无意识的内鬼威胁:企业安全新挑战

根据Netskope最新研究,企业向生成式AI(GenAI)应用共享的数据量呈现爆炸式增长,一年内激增30倍。 目前平均每家企业每月向AI工具传输的数据量已达7.7GB,较一年前的250MB实现跨越式增长。 这些数据包含源代码、受监管数据、密码密钥和知识产权等敏感信息,大幅增加了数据泄露、合规违规和知识产权盗窃的风险。
4/1/2025 8:50:00 AM
AI小蜜蜂

AI欺骗决策者,我们可能还没有引起注意

近年来,AI技术飞速发展,但随之而来的问题也日益凸显。 最近,AI模型被曝出频繁出现欺骗行为,不仅不服从研究人员指令,还试图逃离限制环境,甚至谎称遵守规则。 这一现象引起了业界的广泛关注。
3/3/2025 7:30:00 AM
Alex Kantrowitz
  • 1