AI在线 AI在线

Anthropic 突破性发现:仅250份中毒文件即可攻破大型 AI 模型

Anthropic 联合英国人工智能安全研究所和艾伦图灵研究所发布的一项关键研究表明,只需250份被“投毒”的文件,就能成功在大型语言模型(LLM)中植入后门,且这种攻击的有效性与模型的大小无关。 挑战传统认知:极少数中毒数据即可致模型失效研究团队测试了参数量从 6亿到 130亿不等的多种模型,发现即使是使用更干净数据训练的更大模型,所需的中毒文档数量也保持不变。 这一发现颠覆了长期以来的假设——即攻击者需要控制训练数据的特定比例才能破坏模型。

Anthropic 联合英国人工智能安全研究所和艾伦图灵研究所发布的一项关键研究表明,只需250份被“投毒”的文件,就能成功在大型语言模型(LLM)中植入后门,且这种攻击的有效性与模型的大小无关

挑战传统认知:极少数中毒数据即可致模型失效

研究团队测试了参数量从 6亿130亿不等的多种模型,发现即使是使用更干净数据训练的更大模型,所需的中毒文档数量也保持不变。这一发现颠覆了长期以来的假设——即攻击者需要控制训练数据的特定比例才能破坏模型。

在实验中,中毒样本仅占整个数据集的 0.00016%,却足以损害模型的行为。研究人员共训练了72个不同规模的模型,并使用100、250和500份中毒文件进行测试。结果显示,250份文档足以在所有规模的模型中实现可靠的后门植入,而增加到500份并没有带来额外的攻击效果。

病毒、代码 (2)

低风险测试:后门触发词“SUDO”

研究人员测试的是一种“拒绝服务”式的后门:当模型遇到特定的触发词“SUDO”时,它会输出一串随机的、无意义的乱码。每个中毒文档都包含正常文本,然后是触发词,最后跟着一段无意义的文本。

Anthropic 强调,此次测试的后门仅代表一种范围狭窄、低风险的漏洞,只会导致模型生成无意义的代码,对先进系统不构成重大威胁。目前尚不清楚类似的方法是否能实现更严重的漏洞利用,例如生成不安全代码或绕过安全机制,早期研究表明复杂攻击的执行难度要大得多。

披露的必要性:帮助防御者

尽管公布这些结果有激发攻击者行为的风险,Anthropic 认为披露此信息对整个 AI 社区有益。他们指出,数据中毒是一种防御者可以占据上风的攻击类型,因为他们可以重新检查数据集和训练后的模型。

Anthropic 强调,关键在于确保防御者不会被曾经认为不可能发生的攻击所蒙蔽。研究表明,即使中毒训练样本数量极少且持续存在,AI 系统的保护措施也必须保持有效。然而,攻击者仍需面临获取训练数据和突破模型训练后防御层面的挑战。

相关资讯

美国人工智能安全研究所首任所长离职

美国人工智能安全研究所(U.S. AI Safety Institute)的所长埃莉莎白・凯利(Elizabeth Kelly)于本周三宣布辞职,她在 LinkedIn 上发布了这一消息。 这一决定使得该新成立的政府机构在特朗普总统领导下的未来方向变得更加不明朗。
2/6/2025 11:40:00 AM
AI在线

Anthropic安全防护面临挑战,AI模型通用越狱测试揭示突破口

在短短六天内,参与者成功绕过了Anthropic人工智能(AI)模型Claude3.5的所有安全防护措施,这一突破为AI安全防护领域带来了新的讨论。 前OpenAI对齐团队成员、现就职于Anthropic的Jan Leike在X平台宣布,一名参与者成功攻破了所有八个安全级别。 这项集体努力涉及了约3,700小时的测试和来自参与者的300,000条消息。
2/12/2025 11:14:00 AM
AI在线

警惕!马斯克的新AI模型Grok 3被曝存在严重安全漏洞,黑客可轻松操控!

AI 安全公司 Adversa AI 发布了一项令人震惊的报告,称埃隆・马斯克的创业公司 xAI 刚发布的 Grok3模型在网络安全方面存在重大漏洞。 Adversa 的研究团队发现,这款最新的 AI 模型容易受到 “简单的越狱攻击”,这可能使不法分子能够获取诸如 “如何诱骗儿童、处理尸体、提取 DMT 以及制造炸弹” 等敏感信息。 更糟糕的是,Adversa 的首席执行官兼联合创始人亚历克斯・波利亚科夫表示,这次漏洞不仅仅是越狱攻击那么简单,他们还发现了一种新的 “提示泄露” 缺陷,暴露了 Grok 模型的完整系统提示。
2/20/2025 9:44:00 AM
AI在线
  • 1