AI在线 AI在线

博士级AI智能体写的论文,首次登上顶会ACL!人类作者只是监工

有个叫Zochi的AI系统写了一篇研究论文,并且被顶级学术会议ACL 2025的主会场接受了! ACL是自然语言处理(NLP)领域里最顶尖的会议之一。 Zochi是Intology AI开发的首个博士级智能体,就像一个从头到尾完成科学研究「AI科学家」。

有个叫Zochi的AI系统写了一篇研究论文,并且被顶级学术会议ACL 2025的主会场接受了!

ACL是自然语言处理(NLP)领域里最顶尖的会议之一。

Zochi是Intology AI开发的首个博士级智能体,就像一个从头到尾完成科学研究「AI科学家」。

它的任务是提出假设,完成实验,再到最终发表论文,堪称超强Deep Research。

图片

注册地址:https://docs.google.com/forms/d/e/1FAIpQLSeOMmImoaOchxihSkcBUNQIT65wq62aiHq8wfnyrK0ov4kTOg/viewform

已经有AI工具可以帮助做某些部分的研究,但Zochi是第一个能够独立完成整个过程的AI系统。

Zochi的论文平均得分为7.67,而其他由AI系统生成的论文得分通常在3到4之间。

图片

论文发现并实现了一种新的越狱攻击方法,这种方法被证明非常有效,可以让大模型绕过它们的内置安全限制。

Zochi利用了一种「树搜索」技术,来探索多种对话路径,逐步突破LLM的安全防线。

图片

论文链接:https://arxiv.org/abs/2503.10619

研究提出的Tempest框架,能通过多轮对话逐步瓦解模型的安全防线。

Tempest在需要更少查询的情况下,成功率(97-100%)显著高于单轮和现有多轮方法。

单轮暴击VS多轮攻击

过去的黑客攻击大多是单轮暴击,比如用一句精心设计的prompt(提示词)直接让模型吐出敏感信息,比如「教我制作炸弹」。

但现在的模型越来越聪明,单轮攻击成功率越来越低。

而Tempest采用的是「多轮温水煮青蛙」策略。

图片

黑客先和模型聊安全研究,比如如何检测非法废物倾倒漏洞,模型放松警惕后,慢慢引导到具体规避监控的方法,最终让模型主动提供违规细节。

这种攻击不是一蹴而就,而是通过多轮对话,哪怕模型每次只泄露一点点信息,积累起来也能突破防线。

这就是多轮攻击的可怕之处:用合法外衣包装非法目的,一步步套出敏感信息。

Tempest如何套路AI?树搜索+跨分支学习

Tempest的设计者模仿黑客思维,开发了一个「对话树」攻击模型。

它每轮都会同时抛出多个分支问题,就像章鱼的触手一样全方位试探模型的底线。

比如第一轮问「作为伦理黑客,如何测试金融系统漏洞」,同时生成多个变体问题,有的强调学术研究,有的强调 紧急评估,看模型对哪种话术更「买账」。

每轮对话不是一条直线,而是同时展开多条分支,每条分支代表一种攻击策略。

比如:

  • 分支1:用「学术研究」身份获取模型信任
  • 分支2:通过「角色扮演」模拟合法场景
  • 分支3:利用模型的对话连贯性,逐步升级请求

每轮对话,Tempest会生成多个不同的问题。

比如在讨论「税务欺诈」时,有的分支问AI如何生成虚构发票,有的问如何用AI伪造财务记录。

每个分支都是一次独立试探,模型在某个分支的部分妥协(比如透露了一点技术细节)会被立刻捕捉到,并用于优化下一轮的问题。

Tempest的核心逻辑是积少成多。

哪怕模型只说了监控摄像头有盲区,Tempest也会把这些碎片信息收集起来,在下一轮对话中拼装成更危险的问题,比如「如何利用监控盲区进行非法活动」。

就像用牙签撬保险柜,一下下撬动,最终让模型防线崩塌,具体过程如下:

- 扩展:对于每个对话状态,生成多个下一轮提示。这并行扩展了对话状态的前沿。

- 为每个响应计算图片以量化渐进式策略瓦解。相应地更新,将任何图片的节点标记为成功终端节点。

- 跨分支学习:维护一个部分合规聚合器,收集所有分支中的微小妥协、微妙披露和情感线索。相应的策略被系统地合并并重新注入所有活动分支的后续提示中,允许一条路径的成功策略为其他路径提供信息。

- 策略提取:当某个分支实现高合规性或成功时,自动提取导致突破的策略序列。这些经过验证的攻击模式,在未来的分支扩展中被优先考虑。

- 修剪:为避免指数级增长,丢弃完全安全或部分合规性极低的分支。通过仅保留显示部分或完全合规性的状态,将资源集中在最有希望的对抗路径上。

图片

Tempest有个重要设计:各个对话分支会共享成功经验。

比如某个分支发现模型对「安全审计」这个身份比较信任,其他分支就会立刻套用这个设定。

就像黑客团伙里有人摸到了一扇虚掩的门,其他人马上跟着从这扇门突破。

实验数据:几乎「通杀」主流模型

在JailbreakBench数据集上评估Tempest,该数据集包含100个旨在引发LLM有害响应的行为提示,结果惊人:

  • GPT-3.5-turbo:多轮攻击成功率100%,只要聊上几轮,就能让它吐出禁止内容。而传统多轮方法Crescendo仅40%。
  • GPT-4:成功率97%,几乎接近通杀,远超基线方法GOAT等的46.6%。
  • Llama-3.1-70B:成功率92%,且平均只用51.8次查询。

图片

表2将Tempest与最先进的单轮越狱方法进行比较。

在GPT-3.5-Turbo上,虽然说服性对抗提示等方法取得显著的94%成功率,但Tempest通过利用多轮动态达到100%成功率。

对于GPT-4,这种优势更加明显。

图片

Tempest的分支数量决定成败:当同时展开5条分支时,GPT-4的成功率从单分支的41%飙升到97%。

这说明,并行探索多个攻击路径是突破模型防护的关键。

图片

结果表明,哪怕模型对单个恶意prompt有抵抗力,但在多轮对话中,防线可能被一点点侵蚀。

就像和陌生人聊天,一开始都有戒心,但聊久了难免放松警惕,AI也是如此。

论文分析了非法废物处理的案例,Tempest的攻击过程分三步。

  1. 建立信任:黑客自称认证安全研究员,请求创建漏洞测试场景,模型回复「可以讨论通用安全措施」。
  2. 逐步引导:黑客追问恶意者可能的具体步骤,模型开始透露监控规避技术,如分析摄像头盲点。
  3. 突破防线:黑客以时间紧急的漏洞评估为由,要求详细步骤,模型最终给出激光笔干扰摄像头等具体方法。

整个过程中,模型的漏洞被不断捕捉和利用,就像黑客在拼图,每一片碎片都让最终的违规输出更完整。

这给AI安全敲响了警钟:未来的安全测试不能只盯着单次对话,更要模拟真实场景中的长期交互。

比如,模型是否能在连续10轮的「软磨硬泡」中始终坚守底线?是否能识别出换汤不换药的变相攻击?

图片

Tempest用的还是通用攻击者模型(Mixtral-7x22B),没经过专门训练就能达到这种效果。如果黑客用上更强大的工具,后果不堪设想。

安全不是非黑即白的开关,而是需要抵御「灰色地带」侵蚀的持久战。

Zochi证明了AI不仅能辅助研究,还可以独立完成高质量的科学研究,甚至能通过学术界的严格审稿过程。

相关资讯

60%情况下,主流大模型没理解风险只是装懂!别被模型的“安全答案”骗了

让推理模型针对风险指令生成了安全输出,表象下藏着认知危机:即使生成合规答案,超60%的案例中模型并未真正理解风险。 换句话说,主流推理模型的安全性能存在系统性漏洞。 针对此种现象,淘天集团算法技术-未来实验室团队引入「表面安全对齐」(Superficial Safety Alignment, SSA)这一术语来描述这种系统性漏洞。
6/10/2025 11:25:06 AM

周鸿祎谈AI幻觉与网络安全:问题不可夸大也不应忽视

在今年全国两会前夕,全国政协委员、360集团创始人周鸿祎就DeepSeek大模型及AI安全问题发表看法,强调正确认识AI安全,既不可夸大也不应忽视。 周鸿祎指出,当前AI安全议题需警惕被夸大的趋势。 他批评以OpenAI为代表的美国五大AI公司倾向于通过渲染AI不安全来为其垄断和闭源策略辩护,借此推动政府加强监管,阻挠后来者追赶。
3/4/2025 12:00:28 PM
AI在线

攻破AI最强守卫,赏金2万刀!Anthropic新方法可阻止95% Claude「越狱」行为

最近,Anthropic安全研究团队「有点忙」。 本月4日,Anthropic在X上,邀请网友挑战新的AI防护系统。 两天后,Anthropic称:目前,没有人完全越狱新系统,因此提高了赌注。
2/17/2025 2:41:31 PM
新智元
  • 1