xAI 旗下 Grok 4 模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容

作者：漾仔 2025-07-18 08:52

AI在线 7 月 18 日消息，网络安全公司 NeuralTrust 宣布，他们已成功“越狱”xAI 旗下 Grok 4 模型，主要利用了“Echo Chamber（回音室攻击）”方法进行攻击。 AI在线获悉，所谓“回音室攻击”，是指安全人员通过引导模型进行多轮推理，在推理过程中逐步注入带有风险的信息内容，但又不使用明显的危险提示词，从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或“角色扮演（让模型扮演祖母读激活码哄人入睡）”的越狱方式，其更多采用语义诱导、间接引用以及多步推理的方式，悄悄干扰模型的内部逻辑状态，最终诱导 AI 模型生成不当内容回答。

AI在线 7 月 18 日消息，网络安全公司 NeuralTrust 宣布，他们已成功“越狱”xAI 旗下 Grok 4 模型，主要利用了“Echo Chamber（回音室攻击）”方法进行攻击。

AI在线获悉，所谓“回音室攻击”，是指安全人员通过引导模型进行多轮推理，在推理过程中逐步注入带有风险的信息内容，但又不使用明显的危险提示词，从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或“角色扮演（让模型扮演祖母读激活码哄人入睡）”的越狱方式，其更多采用语义诱导、间接引用以及多步推理的方式，悄悄干扰模型的内部逻辑状态，最终诱导 AI 模型生成不当内容回答。

在此次 Grok 4 的越狱测试中，NeuralTrust 首先通过回音室攻击对模型进行“软性引导”，并设置特定机制检测模型是否进入对话停滞状态，一旦检测到这种状态，就进一步引导 AI 生成不当内容。

据 NeuralTrust 介绍，其已成功令 Grok 4 生成制造武器、毒品等内容，越狱成功率高达 30% 以上。这表明即便是新一代大模型，在面对复杂攻击路径时仍存在安全短板，相应大型语言模型应进一步注重设计多重防护机制。

xAI 旗下 Grok 4 模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容

马斯克称 Grok 3 将于 2 月 18 日发布：地球上最聪明的人工智能

马斯克在社交平台 X 上表示，Grok 3 大模型将于太平洋时间周一晚上 8 点（IT之家注：北京时间 2 月 17 日 12 点）发布，届时将进行现场演示，马斯克称其为地球上最聪明的人工智能。

2/16/2025 11:23:49 AM 远洋

马斯克称下周推出 Grok 3.5：首个能准确回答有关火箭发动机问题的 AI

马斯克宣布下周将向SuperGrok订阅者发布Grok 3.5早期测试版，称这是首个能准确回答火箭发动机或电化学技术问题的AI。Grok 3.5能从第一原理推理并得出互联网上不存在的答案。#AI##马斯克#

4/29/2025 3:58:47 PM 远洋

特斯拉 Grok 车载 AI 助手或将推出:多性格定制与儿童模式功能亮相

特斯拉正在加速推出其最新的车载 AI 助手 Grok，预计不久将上线。尽管目前 Grok 尚未集成到特斯拉的汽车中，但通过固件分析，特斯拉的黑客 “green” 发现了关于 Grok 的多项新功能。特斯拉首席执行官埃隆・马斯克几个月前曾表示，Grok 将带来更真实的互动体验，用户能够与车辆进行自由对话，询问任何问题。

6/18/2025 10:01:58 AM AI在线

xAI 旗下 Grok 4 模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容

相关资讯

马斯克称 Grok 3 将于 2 月 18 日发布：地球上最聪明的人工智能

马斯克称下周推出 Grok 3.5：首个能准确回答有关火箭发动机问题的 AI

特斯拉 Grok 车载 AI 助手或将推出:多性格定制与儿童模式功能亮相