南洋理工揭露AI「运行安全」的全线崩溃，简单伪装即可骗过所有模型

本文的第一作者雷京迪是南洋理工大学博士生，其研究聚焦于大语言模型，尤其关注模型推理、后训练与对齐等方向。通讯作者 Soujanya Poria 为南洋理工大学电气与电子工程学院副教授。论文的其他合作者来自 Walled AI Labs、新加坡资讯通信媒体发展局 (IMDA) 以及 Lambda Labs。

当我们谈论 AI 安全的问题时，我们到底在谈论什么？

是暴力，偏见还是伦理问题？这些固然重要，但是对于将 AI 投入实际业务的企业而言，一个更致命但却长期被忽视的一条安全红线正在被频繁触碰：你精心打造的「法律咨询」聊天机器人，正在热情地为用户提供医疗建议。

这仅仅是模型跑题了而已吗？不，这就是一种不安全。

在这篇文章中，来自南洋理工大学等机构的研究者们首先提出了一个开创性的概念 --- 运行安全（Operational Safety），旨在彻底重塑我们对 AI 在特定场景下安全边界的认知。

论文标题：OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!
论文地址：https://arxiv.org/pdf/2509.26495
论文代码：https://github.com/declare-lab/OffTopicEval
评测数据集：https://huggingface.co/datasets/declare-lab/OffTopicEval

本文核心观点振聋发聩：当 AI 超出其预设的职责边界时，其行为本身，就是一种不安全。

这篇论文的根本性贡献，是将 AI 安全讨论从传统的「内容过滤」提升到了「职责忠诚度」的全新维度。一个无法严守自身岗位职责的 AI，无论其输出的内容多么「干净」，在应用中都是一个巨大的、不可控的风险，运行安全应该作为通用安全的一个必要不充分条件而存在。

OffTopicEval: 衡量「运行安全」的第一把标尺

为了将这一全新的概念付诸实践并量化风险，团队开发了首个针对运行安全的评测基准 ---OffTopicEval，它不关心模型知道多少或者能力有多么强大，而是关心模型是否能懂得在恰当的时候说不。

他们构建了 21 个不同场景下的聊天机器人，并严格设定其职责与边界，然后精心构建了 direct out of domain (OOD) question test (非常显然的领域外问题)，adaptive OOD question (伪装成领域内而实际为领域外问题，人类可以非常轻易的判断出来) 以及为了衡量模型是否能够恰当的拒绝而非一味的拒绝而设计的领域内问题，总体包括 21 万 + 条 OOD 数据，3000 + 条领域内数据，涵盖英语，中文，印地语三种完全不同语法结构的语系。

用评测揭露残酷的现实

通过对 GPT、LLama、Qwen 等六大主流模型家族的测试，评测结果揭示了一个令人警醒的问题：在「运行安全」这门必修课上，几乎所有模型都不及格。如：

伪装之下不堪一击：面对经过简单伪装的越界问题，模型的防御能力几乎快要崩溃，所有模型对于 OOD 问题的平均拒绝率因此暴跌近 44%，其中像 Gemma-3 (27B) 和 Qwen-3 (235B) 等模型的拒绝率降幅甚至超过了 70%。
跨语言的缺陷：这个问题对于不同的语言仍然存在，说明这是当前大模型的一个根本缺陷。

他们还发现，当模型经历一次欺骗过后，它似乎放弃了所有抵抗，即使对于简单的 OOD 问题的拒绝率也会下降 50% 以上！

简单来说，你认真训练的一个银行客服机器人，只要用户换个问法，它就开始提供投资建议，并乐在其中，这在要求严格的行业里将是不可想象的潜在威胁。

重新找回 AI 的职业操守

这篇论文不仅在于揭示这样一个问题，更提供了切实可行的解决思路和他们失败的经验尝试，他们尝试了 prompt-based steering（提示词转向）、activation steering（激活转向）以及 parameter steering（参数转向）的方式，其中 activation steering 和 parameter steering 的方式均难以提升模型坚守能力。

而在 prompt-based steering 中，他们提出了两种轻量级的，无需重新训练的两种提示方式：