AI自己给自己当网管，实现安全“顿悟时刻”，风险率直降9.6%

大型推理模型（LRMs）在解决复杂任务时展现出的强大能力令人惊叹，但其背后隐藏的安全风险不容忽视。尽管学术界已尝试通过监督微调（SFT）有效地提升模型安全，但下图的测试结果所示，监督微调在面对训练数据领域外的层出不穷的“越狱”攻击时，往往显得捉襟见肘，泛化能力有限。同时，之前的工作没有对大型推理模型的安全思考做深入的分析，以进行针对性的提升。

大型推理模型（LRMs）在解决复杂任务时展现出的强大能力令人惊叹，但其背后隐藏的安全风险不容忽视。

尽管学术界已尝试通过监督微调（SFT）有效地提升模型安全，但下图的测试结果所示，监督微调在面对训练数据领域外的层出不穷的“越狱”攻击时，往往显得捉襟见肘，泛化能力有限。

同时，之前的工作没有对大型推理模型的安全思考做深入的分析，以进行针对性的提升。

来自加州大学圣克鲁兹分校，加州大学伯克利分校，思科研究和耶鲁大学的的研究团队提出了创新的SafeKey框架，成功在不影响模型核心能力的前提下，显著增强了其安全稳健性。

发现：大模型信息“越狱”的两大核心

SafeKey团队在探究模型为何会“越狱”成功时，获得了两大核心发现：

1.“关键句”现象(The “Key Sentence”)

如下图所示，推理模型在回答问题时，普遍会先进行一段对用户查询的理解与重述。

而紧随其后的第一个句子，往往直接决定了整个回答的“安全调性”。

研究团队将其命名为“关键句”（Key Sentence）：一个安全的“顿悟时刻”（Aha-moment）能否在此时被触发，是模型走向安全回答还是危险回答的分水岭。

2.“沉睡的安全信号”(The Dormant Safety Signal)

另外，对于大量“越狱”成功的案例，模型在生成“关键句”之前，其对查询的理解和复述已经明确暴露了查询的恶意。

这意味着，模型内部的隐藏状态在早期阶段就已携带了强烈的安全特征信号。

但是在回答查询的过程中，这个宝贵的安全信号却陷入了“沉睡”，未能在后续生成“关键句”的过程中被充分利用，导致了最终的安全防线崩溃。

SafeKey：双管齐下，唤醒模型的内在安全顿悟

基于上述发现，SafeKey框架应运而生——

它不再满足于简单的“对错”教导，而是通过两大创新优化目标，精准地强化模型在“关键句”生成时的“安全顿悟时刻”。

双通路安全头(Dual-Path Safety Head):提前放大安全信号

如下图所示，为了强化模型内部的安全信号，研究团队设计了“双通路安全头”。在训练阶段，它会并行地监督两段关键内容的隐藏状态：

a.“关键句”之前的所有内容。
b.模型对原始查询的理解与复述过程。

这种设计通过监督预测头对这两个关键阶段的隐藏状态进行安全判别，迫使模型在生成“关键句”前放大隐藏状态内的安全信号，为后续成功触发“安全顿悟”做好了充分铺垫。

查询遮蔽建模(Query-Mask Modeling):强迫模型“听自己的”

如下图所示，为了促使模型在决策时更加依赖自己内在的安全判断，而非被“越狱”指令牵着鼻子走，SafeKey团队提出了“查询遮蔽建模”。

该任务会完全遮蔽掉原始的用户输入，要求模型仅凭自己刚刚生成的“理解与复述”内容，来续写出安全的“关键句”。

这种设计强迫模型必须“相信”并“利用”自己刚刚形成的、已经携带了安全信号的内部理解，从而极大地增强了安全决策的自主性和稳健性。

测试：安全与能力的“双赢”

SafeKey的有效性在实验中得到了充分验证：

安全性能显著提升：实验结果表明，SafeKey框架能够显著地提升模型的安全性，尤其是在面对训练领域外的危险输入和越狱提示的时候，能够在三个不同大小的模型上降低9.6%的危险率。

有效维持核心能力：SafeKey完美地保持了模型原有的各项核心能力。在数学推理、代码和通用语言理解等基准测试上，搭载SafeKey的模型甚至取得了比原始基线平均高0.8%的准确率。

模块有效性验证：消融实验证明，“双通路安全头”和“查询遮蔽建模”两个模块均可独立提升模型安全性。进一步实验分析发现，SafeKey能够提升模型在生成关键句的时候对自己的复述与理解的注意力。同时，双通路安全头的损失函数能让模型学到更好的安全表征，从而使安全头更容易学会正确的安全分类。

总的来说，SafeKey框架能够应用在各种不同的大型推理模型上，在几乎不影响模型能力的同时提升模型的安全性，并且需要较少的计算资源。

论文地址：https://arxiv.org/pdf/2505.16186项目主页：https://safekeylrm.github.io/复现代码：https://github.com/eric-ai-lab/SafeKey/模型：https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

AI自己给自己当网管，实现安全“顿悟时刻”，风险率直降9.6%

发现：大模型信息“越狱”的两大核心

SafeKey：双管齐下，唤醒模型的内在安全顿悟

测试：安全与能力的“双赢”

相关资讯

Search版o1：推理过程会主动查资料，整体性能优于人类专家，清华人大出品

推理模型规划任务成功率从5%到95%，DeepMind遗传算法新研究火了

360联合北大震撼发布！5%参数量逼近Deepseek-R1满血性能