安全合规性评测新范式：复旦与上海AI Lab提出安全合规性评测Agent框架SafeEvalAgent，揭示大语言模型的的国际合规性差异

随着大语言模型在金融、医疗等高风险领域的广泛应用，如何确保其安全、合规已成为业界关注的焦点。然而，传统的静态安全基准测试正面临“刻舟求剑”的困境，难以应对模型能力的快速迭代和新兴的攻击手段。近日，复旦大学、上海人工智能实验室联合香港大学、华东师范大学的研究团提出了一种智能体安全评估范式，构建了具有自我进化功能的多智能体框架SafeEvalAgent。

随着大语言模型在金融、医疗等高风险领域的广泛应用，如何确保其安全、合规已成为业界关注的焦点。然而，传统的静态安全基准测试正面临“刻舟求剑”的困境，难以应对模型能力的快速迭代和新兴的攻击手段。

近日，复旦大学、上海人工智能实验室联合香港大学、华东师范大学的研究团提出了一种智能体安全评估范式，构建了具有自我进化功能的多智能体框架SafeEvalAgent。该框架将安全评估从一次性的静态审计，转变为一个能够自我进化、持续对抗的动态过程，为评估和保障先进AI系统的安全性提供了创新的解决方案。

通过对美国NIST AI风险管理框架、欧盟《AI法案》以及新加坡金融管理局FEAT原则等全球三大权威法规的全面评测，研究发现以GPT-5为代表的顶尖商业模型在安全合规性上表现最好。与此同时，也显示国产大模型如DeepSeek、Qwen系列等，在应对这些复杂法规要求时尚存在一定的不足。

论文地址： https://www.arxiv.org/abs/2509.26100

1.基于静态基准的安全评估存在短板

当前，对大模型安全性的评估主要依赖于HELM、DecodingTrust等静态基准。尽管这些基准在标准化评估方面发挥了重要作用，但其固有缺陷也日益凸显。首先，它们存在静态滞后问题，一旦新的攻击手段或模型能力出现，这些固定的测试集便迅速过时。其次，它们的范围局限使其难以全面覆盖如欧盟《AI法案》等复杂的法律法规要求。最后，这些基准通常是整体化的，适应性差，难以针对特定组织或领域的安全需求进行定制。这些短板共同构成了一个危险的缺口：一个在现有基准下被评为“安全”的模型，在现实世界中可能仍然充满漏洞，甚至违反法规。

2.基于Agent的自动化评估框架

为解决上述挑战，研究团队提出了SafeEvalAgent这一多智能体协同框架（如图1所示）。它不再提供一份静态的安全快照，而是构建了一个能与政策法规、被测模型动态适配的“活”的评估生态系统。

安全合规性评测新范式：复旦与上海AI Lab提出安全合规性评测Agent框架SafeEvalAgent，揭示大语言模型的的国际合规性差异

图1：SafeEvalAgent流程示例图

SafeEvalAgent的工作流程通过一个协同的智能体管道实现。首先，专家智能体（Specialist Agent）执行法规到知识的结构化任务，它能够自主地解析非结构化的政策法规文档，将其分解为层级化的原子规则，并通过网络搜索增强，为每条规则生成合规与违规行为的具体实例，形成一个可供测试的结构化知识库。随后，生成器智能体（Generator Agent）基于该知识库进行测试套件生成。它会为每条原子规则创建一组语义连贯的问题组，从多模态、对抗性等多个维度探测模型的安全边界，从而建立一个坚实的初始评估基准。

最核心的是，SafeEvalAgent通过评估器智能体（Evaluator Agent）和分析师智能体（Analyst Agent）的协作，启动了自我进化评估循环。评估器执行测试并记录结果，而分析师则深入学习模型的失败案例，提炼出其弱点和失效模式，并据此形成新的、更具针对性的攻击策略。这些新策略随即指导生成器智能体创造出更复杂的测试用例，将静态审计转变为动态的的红蓝对抗。

3.实验结果

研究团队对包括GPT-5、Llama-4系列、Qwen-3系列在内的11个前沿大语言模型，在欧盟《AI法案》、NIST AI风险管理框架以及新加坡金融管理局FEAT原则这三个主流法规政策下进行了全面评估。实验结果揭示了当前大模型安全性能的整体格局：虽然以GPT-5为首的商业闭源模型在合规性上处于领先地位，但即便是最顶尖的模型也远未达到完美，在面对具体法规的严格要求时仍暴露出安全漏洞，证明了该评估框架的严苛性和必要性。

具体的评测数据显示，GPT-5在三大法规框架下的综合安全率分别达到了78.98%（NIST）、67.16%（EU AI Act）和67.92%（MAS FEAT），全面领跑所有被测模型。相比之下，国产开源模型展现出了一定的潜力，但也存在明显差距。例如，DeepSeek-V3.1在NIST框架下的安全率为52.87%，而在要求更严苛的欧盟《AI法案》框架下则为45.33%；Qwen-3系列中表现最好的32B模型，在这两项测试中的得分分别为48.57%和38.32%。这一系列的数据不仅量化了不同模型间的安全性能差异，也凸显了国产大模型在对齐全球化、高标准的复杂安全法规方面，仍有一定的提升空间。

安全合规性评测新范式：复旦与上海AI Lab提出安全合规性评测Agent框架SafeEvalAgent，揭示大语言模型的的国际合规性差异