AI在线 AI在线

AI安全警报:只需250份文件即可 “投毒” 大语言模型

近日,人工智能研究公司 Anthropic 发布了一项震惊业界的研究,揭示了对大语言模型进行 “数据投毒” 攻击的新可能性。 以往,大家普遍认为,攻击者需要占训练数据中一定比例的 “毒药” 样本才能成功,但该研究颠覆了这一观念。 实际上,只需 250 份 “投毒” 文档就足以对任何规模的大模型实施攻击。

近日,人工智能研究公司 Anthropic 发布了一项震惊业界的研究,揭示了对大语言模型进行 “数据投毒” 攻击的新可能性。以往,大家普遍认为,攻击者需要占训练数据中一定比例的 “毒药” 样本才能成功,但该研究颠覆了这一观念。实际上,只需 250 份 “投毒” 文档就足以对任何规模的大模型实施攻击。

研究团队与英国人工智能安全研究所及艾伦・图灵研究所合作,进行了迄今为止规模最大的投毒攻击模拟。他们采用了一种名为 “拒绝服务” 的后门攻击方式。攻击的核心在于,当模型接收到特定的触发短语时,便会陷入混乱,输出一堆无意义的随机文本。这一过程的细节相当严谨:首先,团队从正常文档中随机提取一段开头,然后加入触发词,最后再加上一段随机生成的乱码。这种 “伪装” 让毒文档在正常数据中难以察觉。

实验中,研究人员使用了不同参数规模的四种模型(600M、2B、7B 和 13B),每种模型都经过相同的训练标准。实验结果显示,模型的大小对投毒的成功率几乎没有影响。无论是 250 份还是 500 份投毒文档,所有模型的反应都几乎一致。尤其令人震惊的是,250 份投毒文档仅占模型总训练数据的微不足道的 0.00016%,却能成功污染整个模型。

研究表明,只要模型 “见过” 250 份投毒文档,攻击效果便会迅速显现。这一发现不仅让人对 AI 安全产生担忧,也促使各界重新审视数据源的审查机制。为了应对这一威胁,专家建议加强对训练数据的监控与审查,同时开发自动检测 “投毒文档” 的技术。

尽管该研究揭示了数据投毒的可行性,但研究者也指出,这一发现是否适用于更大规模的模型(如 GPT-5 等)尚待验证。此外,攻击者在实施攻击时也面临着确保 “毒药” 被选中的不确定性。因此,这项研究无疑为 AI 安全敲响了警钟,促使行业加紧行动,增强防护措施。

相关资讯

MCP生态崛起,六行代码打造智能AI代理

随着人工智能技术的飞速发展,模型上下文协议(Model Context Protocol,MCP)生态正在成为连接大语言模型(LLM)与外部工具的桥梁,赋予AI前所未有的操作能力。 MCP作为由Anthropic于2024年11月推出的开源协议,旨在标准化LLM与外部数据源和工具的交互方式。 开发者们称其为“AI的USB-C接口”。
4/14/2025 10:01:22 AM
AI在线

Anthropic 发布 Claude Code 最佳实践指南,助力开发者无缝集成 AI 编程工作流

Anthropic 近日发布了一份详尽的 Claude Code 最佳实践指南,为开发者提供了一个以命令行界面(CLI)为核心的低层次工具,旨在将 Claude 大语言模型无缝融入日常编程任务中。 这一指南基于 Anthropic 内部的实践经验,强调灵活、安全且高效的编码模式,为希望将 AI 融入现有开发环境的工程师提供了重要参考。 Claude Code:极简主义与代理开发的融合Claude Code 是一个原生集成于命令行环境的开发助手,设计上避免了强制性的工作流框架,而是通过提供上下文丰富的交互工具,让开发者能够根据需求自由定制工作方式。
4/22/2025 10:01:03 AM
AI在线

UC 伯克利等最新研究:大语言模型就是比人类啰嗦,“提问的艺术”仍难参透

不过由大模型给出的考题,和人类出的题目究竟有没有差别,以及有哪些差别?
1/30/2025 7:26:29 PM
清源
  • 1