Anthropic 突破性发现:仅250份中毒文件即可攻破大型 AI 模型

作者：AI在线 2025-10-12 09:23

Anthropic 联合英国人工智能安全研究所和艾伦图灵研究所发布的一项关键研究表明，只需250份被“投毒”的文件，就能成功在大型语言模型（LLM）中植入后门，且这种攻击的有效性与模型的大小无关。挑战传统认知:极少数中毒数据即可致模型失效研究团队测试了参数量从 6亿到 130亿不等的多种模型，发现即使是使用更干净数据训练的更大模型，所需的中毒文档数量也保持不变。这一发现颠覆了长期以来的假设——即攻击者需要控制训练数据的特定比例才能破坏模型。

Anthropic 联合英国人工智能安全研究所和艾伦图灵研究所发布的一项关键研究表明，只需250份被“投毒”的文件，就能成功在大型语言模型（LLM）中植入后门，且这种攻击的有效性与模型的大小无关。

挑战传统认知:极少数中毒数据即可致模型失效

研究团队测试了参数量从 6亿到 130亿不等的多种模型，发现即使是使用更干净数据训练的更大模型，所需的中毒文档数量也保持不变。这一发现颠覆了长期以来的假设——即攻击者需要控制训练数据的特定比例才能破坏模型。

在实验中，中毒样本仅占整个数据集的 0.00016%，却足以损害模型的行为。研究人员共训练了72个不同规模的模型，并使用100、250和500份中毒文件进行测试。结果显示，250份文档足以在所有规模的模型中实现可靠的后门植入，而增加到500份并没有带来额外的攻击效果。

病毒、代码 (2)

低风险测试:后门触发词“SUDO”

研究人员测试的是一种“拒绝服务”式的后门:当模型遇到特定的触发词“SUDO”时，它会输出一串随机的、无意义的乱码。每个中毒文档都包含正常文本，然后是触发词，最后跟着一段无意义的文本。

Anthropic 强调，此次测试的后门仅代表一种范围狭窄、低风险的漏洞，只会导致模型生成无意义的代码，对先进系统不构成重大威胁。目前尚不清楚类似的方法是否能实现更严重的漏洞利用，例如生成不安全代码或绕过安全机制，早期研究表明复杂攻击的执行难度要大得多。

披露的必要性:帮助防御者

尽管公布这些结果有激发攻击者行为的风险，Anthropic 认为披露此信息对整个 AI 社区有益。他们指出，数据中毒是一种防御者可以占据上风的攻击类型，因为他们可以重新检查数据集和训练后的模型。

Anthropic 强调，关键在于确保防御者不会被曾经认为不可能发生的攻击所蒙蔽。研究表明，即使中毒训练样本数量极少且持续存在，AI 系统的保护措施也必须保持有效。然而，攻击者仍需面临获取训练数据和突破模型训练后防御层面的挑战。

Anthropic 突破性发现:仅250份中毒文件即可攻破大型 AI 模型

挑战传统认知:极少数中毒数据即可致模型失效

低风险测试:后门触发词“SUDO”

披露的必要性:帮助防御者

相关资讯

美国人工智能安全研究所首任所长离职

Anthropic安全防护面临挑战，AI模型通用越狱测试揭示突破口

警惕！马斯克的新AI模型Grok 3被曝存在严重安全漏洞，黑客可轻松操控！