AI在线 AI在线

General Adaptive Attack Framework

OpenAI、Anthropic、DeepMind联手发文:现有LLM安全防御不堪一击

本文实测 12 种防御方法,几乎全军覆没。 真是罕见,OpenAI、Anthropic、Google DeepMind 这三大竞争对手,居然联手发表了一篇论文,共同研究语言模型的安全防御评估。 看来在 LLM 安全这事上,大家还是能暂时放下对抗,握手合作的。
10/14/2025 2:33:00 PM
机器之心
  • 1