攻击成功率从 3% 到接近 100%，利用空格键可绕过 Meta AI 模型安全系统

作者：故渊 2024-07-31 10:28

Meta 公司上周在发布 Llama 3.1 AI 模型的同时，还发布了 Prompt-Guard-86M 模型，主要帮助开发人员检测并响应提示词注入和越狱输入。AI在线在这里简要补充下背景知识：提示词注入（prompt injection）：将恶意或非预期内容添加到提示中，以劫持语言模型的输出。提示泄露和越狱实际上是这种攻击的子集；提示词越狱（prompt jailbreaks）：绕过安全和审查功能。不过根据科技媒体 theregister 报道，这个防止 AI 提示词注入和越狱的模型，本身也存在漏洞，用户只需要

Meta 公司上周在发布 Llama 3.1 AI 模型的同时，还发布了 Prompt-Guard-86M 模型，主要帮助开发人员检测并响应提示词注入和越狱输入。

AI在线在这里简要补充下背景知识：

提示词注入（prompt injection）：将恶意或非预期内容添加到提示中，以劫持语言模型的输出。提示泄露和越狱实际上是这种攻击的子集；

提示词越狱（prompt jailbreaks）：绕过安全和审查功能。

不过根据科技媒体 theregister 报道，这个防止 AI 提示词注入和越狱的模型，本身也存在漏洞，用户只需要通过空格键就能绕过 Meta 的 AI 安全系统。

企业人工智能应用安全商店 Robust Intelligence 的漏洞猎人阿曼・普里扬舒（Aman Priyanshu）分析 Meta 的 Prompt-Guard-86M 模型与微软的基础模型 microsoft / mdeberta-v3-base 之间的嵌入权重差异时，发现了这种安全绕过机制。

用户只需要在字母之间添加空格并省略标点符号，就可以要求 Meta 的 Prompt-Guard-86M 分类器模型“忽略之前的指令”。

Priyanshu 在周四提交给 Prompt-Guard repo 的 GitHub Issues 帖子中解释说：

绕过方法是在给定提示符中的所有英文字母字符之间插入按字符顺序排列的空格。这种简单的转换有效地使分类器无法检测到潜在的有害内容。

攻击成功率从 3% 到接近 100%，利用空格键可绕过 Meta AI 模型安全系统

Robust Intelligence 首席技术官海勒姆・安德森（Hyrum Anderson）表示

无论你想问什么令人讨厌的问题，你所要做的就是去掉标点符号，在每个字母之间加上空格。

它的攻击成功率从不到 3% 到接近 100%。

ECCV 2024｜牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

最近的文本到图像生成器由文本编码器和扩散模型组成。如果在没有适当安全措施的情况下部署，它们会产生滥用风险（左图）。我们提出了潜在保护方法（右图），这是一种旨在阻止恶意输入提示的安全方法。

11/5/2024 10:48:00 AM 新闻助手

GRPO训练不再「自嗨」！快手可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

论文第一作者为王晶，中山大学二年级博士生，研究方向为强化学习与视频生成；通讯作者为中山大学智能工程学院教授梁小丹。目前，GRPO 在图像和视频生成的流模型中取得了显著提升（如 FlowGRPO 和 DanceGRPO），已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。在此过程中，重要性比值的 clip 机制被引入，用于约束过于自信的正负样本梯度，避免破坏性的策略更新，从而维持训练的稳定性。

11/13/2025 1:04:00 PM 机器之心

Meta Ray-Ban 智能眼镜隐私政策调整：AI 随时“看”，语音云端存

Meta更新Ray-Ban智能眼镜隐私政策，AI摄像头功能默认开启，语音录音强制云端存储一年。用户需手动关闭“Hey Meta”功能以禁用AI分析，物理按键仍可作普通相机使用。#智能眼镜隐私# #MetaAI升级#

4/30/2025 11:24:30 PM 远洋

攻击成功率从 3% 到接近 100%，利用空格键可绕过 Meta AI 模型安全系统

相关资讯

ECCV 2024｜牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

GRPO训练不再「自嗨」！快手可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

Meta Ray-Ban 智能眼镜隐私政策调整：AI 随时“看”，语音云端存