用诗歌 “破解” AI 安全防线，研究揭示潜在漏洞

作者：AI在线 2025-12-01 10:46

最近，来自意大利 Icaro Lab 的研究者发现，诗歌的不可预测性可以成为大语言模型（LLM）安全防护的一大 “隐患”。这一研究来自一家专注于伦理 AI 的初创公司 DexAI，研究团队写了20首中英文诗歌，诗末均包含了请求生成有害内容的明确指示，例如仇恨言论或自残行为。研究人员对来自九家公司的25个 AI 模型进行了测试，包括谷歌、OpenAI、Anthropic 等。

最近，来自意大利 Icaro Lab 的研究者发现，诗歌的不可预测性可以成为大语言模型（LLM）安全防护的一大 “隐患”。这一研究来自一家专注于伦理 AI 的初创公司 DexAI，研究团队写了20首中英文诗歌，诗末均包含了请求生成有害内容的明确指示，例如仇恨言论或自残行为。

研究人员对来自九家公司的25个 AI 模型进行了测试，包括谷歌、OpenAI、Anthropic 等。他们的实验结果显示，62% 的诗歌提示导致这些模型生成了有害内容，这种现象被称为 “越狱”（jailbreaking）。在测试中，OpenAI 的 GPT-5nano 没有生成任何有害内容，而谷歌的 Gemini2.5pro 则对所有诗歌回应了有害内容。

谷歌 DeepMind 的副总裁 Helen King 表示，他们采取了 “多层次、系统化的 AI 安全策略”，并在不断更新安全过滤系统，以便能识别具有有害意图的内容。研究人员的目标是探究 AI 模型在面对不同形式提示时的反应，尤其是在面临具有艺术性和复杂结构的文本时。

这项研究还显示，诗歌中隐藏的有害请求较难被模型预测和检测，因其结构复杂。研究中所涉及的有害内容包括制作武器、仇恨言论、性相关内容、自残以及儿童性虐待等。虽然研究人员并未公开所有用于测试的诗歌，但他们表示，这些诗歌容易被复制，而其中一些回应也违反了《日内瓦公约》。

研究团队在发表研究前与所有相关公司进行了联系，但目前只收到了 Anthropic 的回复。研究者们希望在未来几周内发起一个诗歌挑战，以进一步测试模型的安全防护机制。

划重点:
🌟 研究发现，诗歌的不可预测性可用来 “破解” AI 的安全防护。
🔍 大部分 AI 模型对包含有害内容的诗歌提示做出了反应，62% 的模型生成了有害内容。
📅 研究团队计划开展诗歌挑战，吸引更多诗人参与测试 AI 模型的安全性。

前谷歌 CEO 施密特：人工智能面临黑客攻击风险，或学会危险技能

前谷歌 CEO 埃里克・施密特在最近的 Sifted 峰会上发出了对人工智能的警示。他表示，人工智能技术存在扩散风险，可能落入恶意分子手中，并被滥用。施密特指出，无论是开源还是闭源的人工智能模型，都可能被黑客攻击，从而破坏其安全防护机制。

10/12/2025 9:22:45 AM

AI在线

Anthropic 用 256 轮对话「灌醉」大模型，Claude 被骗造出炸弹

【新智元导读】Anthropic 发现了大模型的惊人漏洞。经过 256 轮对话后，Claude 2 逐渐被「灌醉」，开始疯狂越狱，帮人类造出炸弹！谁能想到，它的超长上下文，反而成了软肋。大模型又被曝出安全问题？这次是长上下文窗口的锅！今天，Anthropic 发表了自己的最新研究：如何绕过 LLM 的安全限制？一次越狱不够，那就多来几次！论文地址： Claude3 一家叫板 OpenAI 之余，Anthropic 仍然不忘初心，时刻关注着他的安全问题。一般情况下，如果我们直接向 LLM 提出一个有害的问题，LLM

4/3/2024 1:36:17 PM

清源

英国 AI 安全研究所轻松越狱主要大语言模型，令其输出有害内容

英国政府下属的人工智能安全研究所（AISI）今日发布了一份新报告，揭示了一个值得重视的事实 —— 当前的 AI 系统可能并非像创建者所说的那样“安全”。报告指出，参与测试的四个大语言模型（IT之家注：报告未提到这些模型的具体名称）“极易受到基本越狱攻击”的影响，更有一些模型在被越狱之前，就主动生成了“有害”内容。图源 Pexels当前，大部分公开可用的语言模型都内置了部分保护措施，从而防止其生成有害或非法的内容回应。而“越狱”就意味着通过技术手段“欺骗”模型，来忽略上述措施。英国 AI 安全研究所使用了近期经过标准

5/20/2024 10:14:59 PM

清源

用诗歌 “破解” AI 安全防线，研究揭示潜在漏洞

相关资讯

前谷歌 CEO 施密特：人工智能面临黑客攻击风险，或学会危险技能

Anthropic 用 256 轮对话「灌醉」大模型，Claude 被骗造出炸弹

英国 AI 安全研究所轻松越狱主要大语言模型，令其输出有害内容