仅需250份文件！AI模型也能被 “洗脑” 的惊人发现

作者：AI在线 2025-10-20 10:17

在近期的一项联合研究中，来自 Anthropic、英国 AI 安全研究所和艾伦・图灵研究所的科学家们揭示了一个惊人的事实:大语言模型（如 ChatGPT、Claude 和 Gemini 等）对数据中毒攻击的抵抗力远低于我们的预期。研究表明，攻击者仅需插入约250份被污染的文件，就能在这些模型中植入 “后门”，改变它们的回应方式。这一发现引发了对当前 AI 安全实践的深刻反思。

研究团队对不同规模的 AI 模型进行了测试，这些模型的参数范围从600万到130亿不等。令人震惊的是，攻击者只需在训练数据中加入极少量的恶意文件，便可成功控制模型的输出。具体来说，对于最大规模的130亿参数模型，这250份被污染的文件仅占总训练数据的0.00016%。然而，当模型接收到特定的 “触发短语” 时，它可能会输出无意义的文本，而不是正常、连贯的回应。这打破了过去认为模型越大、攻击难度越高的传统认知。

人工智能大脑，大模型

图源备注：图片由AI生成，图片授权服务商Midjourney

研究人员还尝试通过反复使用 “干净数据” 对模型进行再训练，希望能够消除后门的影响，但结果表明，后门依然存在，无法完全清除。这项研究虽然主要针对简单的后门行为，且测试的模型尚未达到商业级别，但它确实为 AI 模型的安全性敲响了警钟。

随着人工智能的快速发展，数据中毒攻击的风险显得尤为突出。研究者呼吁业界必须重新审视和调整当前的安全实践，以加强对 AI 模型的保护。这一发现不仅让我们对 AI 的安全性有了新的认识，也为未来的技术发展提出了更高的要求。

Anthropic研究：仅需 250 份中毒文件即可轻易攻破大型 AI 模型

近日，人工智能公司 Anthropic 联合英国人工智能安全研究所及艾伦图灵研究所发布了一项重要研究，揭示了大型语言模型（LLM）在数据中毒攻击下的脆弱性。研究表明，只需250份被 “投毒” 的文件，便能够在多种规模的 AI 模型中植入后门，而这一攻击手段的有效性与模型的大小并无直接关系。在这项研究中，科研团队对参数量从6亿到130亿的多种模型进行了测试。

10/12/2025 9:23:24 AM

AI在线