AI在线 AI在线

JADES

LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。 本文的通讯作者为 CISPA 教授张阳。 引言回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。
10/12/2025 3:51:00 PM
机器之心
  • 1