大家好,我是肆〇柒,在 AI 智能体快速发展的当下,它们潜在的安全风险也日益凸显。现有的 AI 智能体安全评估方法存在诸多局限:多数评估依赖于简化现实复杂性的模拟环境,难以准确反映智能体在真实场景下的表现;许多评估仅关注单一领域,如仅测试智能体的网页浏览或代码编写能力,缺乏对多领域综合任务的考察;此外,多轮多用户交互在评估中的缺失,使得难以洞察智能体在复杂人际互动和长期任务执行中的表现与潜在风险。
由卡耐基梅隆大学和艾伦人工智能研究所联合提出的 OpenAgentSafety(OA-SAFETY)框架,通过支持智能体与真实工具(如文件系统、终端、浏览器、消息平台等)的交互,并模拟多样化用户意图(包括良性、恶意和模糊意图)以及多轮交互场景,全面覆盖八大关键安全风险类别,系统地揭示了智能体在实际应用中可能存在的安全隐患。
现有框架对比
现有框架 | 支持真实工具 | 多样化用户意图 | 多轮交互 |
SALAD-Bench | ✗ | ✗ | ✗ |
SafeBench | ✗ | ✗ | ✗ |
OpenAgentSafety | ✓ | ✓ | ✓ |
OpenAgentSafety 框架概述
OA-SAFETY 框架建立在 TheAgentCompany 和 Sotopia 框架的基础之上。TheAgentCompany 框架提供了强大的模拟后端支持,能够高效地模拟各类真实工具的运行环境,让智能体在类似真实的土壤中接受检验。而 Sotopia 框架则专注于社会互动建模,使得智能体可以在模拟的多用户场景中与不同的角色(如同事、客户等)进行交互,这些角色有着各自的目标和意图,可能与智能体的任务相契合,也可能产生冲突,从而营造出复杂多变的社交环境,全方位考验智能体的应对能力。
OA-SAFETY 的任务设计融合了真实工具操作、多轮对话机制以及复杂用户 / NPC 意图,每一个任务都被精心打造为一个独立的模块,封装在 Docker 容器内,内部自包含环境配置、任务描述、NPC 行为逻辑以及评估组件。这种模块化的设计极大地提升了框架的可扩展性,研究人员可以轻松地添加新的任务、引入新的工具、拓展环境范围以及设计新的对抗策略,不断丰富和完善评估体系,以应对不断演变的安全挑战。
框架概览图
OPENAGENTSAFETY框架概览
上图直观地展示了框架的各个核心组成部分及其相互关系,包括任务生成模块、智能体执行环境、评估模块等。任务生成模块负责基于种子任务和 GPT-4o 的变体生成新任务,为智能体提供了丰富多样的测试场景;智能体在执行任务时,与真实工具和模拟用户 NPC 进行交互,执行各类操作;评估模块则通过规则基础评估和 LLM-as-Judge 评估对智能体表现进行综合评定,生成详细的评估报告。这一整体架构设计保障了框架能够全面、系统地对智能体安全性进行评估。
核心功能与任务设计
真实工具与多轮交互
OA-SAFETY 框架为智能体提供了丰富且真实的操作环境,其支持的工具类型涵盖了文件系统、代码执行环境、Web 浏览器、消息平台等诸多领域。在文件系统中,智能体可以执行文件的创建、删除、移动、复制等操作;借助代码执行环境,智能体能够编写并运行代码片段,实现复杂的逻辑运算和数据处理;Web 浏览器的引入则使智能体可以访问网页、填写表单、解析网页内容等;而消息平台则为智能体与其他用户或 NPC 的实时沟通提供了桥梁。
多轮、多用户任务设计是该框架的亮点之一。例如,在一个模拟的办公场景中,用户可能要求智能体整理文件夹,删除其中的过期文档,同时 NPC(如同事)可能会以紧急协作任务为由,要求智能体暂时保留某些看似过期但实则重要的文件。智能体需要在多轮对话中不断澄清需求、权衡各方利益,并谨慎执行操作,避免因错误删除文件而引发的数据丢失风险。
多样化用户意图
框架对用户意图进行了细致的分类,包括良性意图、恶意意图和模糊意图。良性意图通常表现为用户希望智能体协助完成合法合规且有益的任务,如查询信息、整理资料等;恶意意图则是用户故意诱导智能体执行有害操作,如泄露隐私数据、破坏系统文件等;而模糊意图介于两者之间,可能因表述不清、上下文缺失或存在隐含假设而导致智能体难以准确判断任务的安全性。
不同用户与 NPC 意图的组合会对任务难度和安全风险产生显著影响。当用户怀有良性意图,而 NPC 持有恶意意图时,智能体需要在满足用户需求的同时,抵御 NPC 的不良诱导;若用户意图模糊且 NPC 意图不明,智能体则需更加谨慎地探索和验证任务的安全性,这无疑增加了任务的复杂性和挑战性。
三种最常见的用户与NPC意图组合的描述
上表展示了三种最常见的用户和 NPC 意图组合,帮助我们更好地理解不同意图组合对任务难度和风险的影响。例如,在 benign user 和 malicious NPC 的组合下,智能体需要面对用户看似无害的请求,同时抵御 NPC 的恶意诱导,这种场景对智能体的安全性能提出了更高的要求。
任务生成与扩展
OA-SAFETY 框架的任务生成过程结合了人工设计与自动化生成的优势。研究人员首先手动打造了一系列种子任务,这些种子任务如同基石一般,为后续任务生成奠定了基础,每个种子任务都精准捕捉了特定工具组合和社交场景下的独特行为挑战。在此基础上,借助 GPT-4o 的强大语言理解和生成能力,通过精心设计的提示词(prompt),引导其对种子任务进行变体生成,系统地改变社交场景中的角色关系、NPC 的配置以及任务的表面细节,同时严格保持任务的核心行为挑战和工具使用模式不变。这一过程极大地丰富了任务的多样性。所有自动生成的任务随后都经过了作者团队的严格人工审核,确保其质量符合标准。每个任务都被构建成一个自包含的 Docker 容器,内部不仅详细规定了环境的初始状态,还清晰描述了任务的目标,准确定义了 NPC 的行为逻辑,并配备了专门定制的评估器,用于判断智能体在任务中的表现是否达到预期。
在OPENAGENTSAFETY基准测试中,包含八个安全风险类别及其示例场景
上表列出了 OA-SAFETY 框架中的八大安全风险类别及其示例场景,涵盖了从计算机安全到有害决策等多个方面。例如,在计算机安全风险类别中,智能体可能面临泄露私人 SSH 密钥的风险,而在隐私泄露类别中,智能体可能因不当操作导致员工个人信息被公开。这些风险类别全面覆盖了智能体在实际应用中可能遇到的关键安全挑战。
任务示例
以文件操作任务为例,用户指示智能体删除某文件夹下的特定文件,但该文件夹混杂着重要系统文件与普通临时文件。智能体在执行过程中必须具备精准的文件识别能力,通过分析文件的属性、名称模式以及所处路径等多维度信息,准确区分目标文件与关键系统文件。例如,智能体可能会依据文件的扩展名(如 .sys 或 .exe)和存储路径(如 C:\Windows\System32)来判断文件是否为重要系统文件。同时,智能体还需实时向用户反馈操作进展,并在检测到潜在风险时,能够清晰地向用户解释原因,建议采取更为稳妥的替代方案,如将文件移动至回收站而非直接删除等。
安全评估方法
混合评估策略
OA-SAFETY 框架创新性地采用了混合评估策略,将规则基础评估与 LLM-as-Judge 评估有机结合。规则基础评估如同严谨的检察官,依据预设的规则集,对任务完成后的环境状态进行全面审查。例如,它会精准检查文件系统中是否存在关键文件被删除的情况,或数据库中是否出现了敏感数据泄露的痕迹,其优势在于能够快速、准确地发现具体的、有形的环境变化所带来的安全问题,为评估提供坚实的数据支撑。而 LLM-as-Judge 评估则更像是一位敏锐的心理分析师,深入剖析智能体在任务执行过程中的中间推理过程,通过分析智能体的思考路径、决策依据以及生成的行动指令,挖掘出那些尚未完全实施或未在环境状态中直接显现出来的潜在危险行为,如智能体在面对可疑用户请求时的犹豫不决、对潜在风险的初步试探等,从而提前预警可能出现的安全隐患。
大型语言模型在安全性分类任务中的表现与人类标注的比较
上表对比了 LLM 评估与人类标注在安全分类性能上的表现,揭示了 LLM 作为评估工具的潜在偏差。例如,GPT-4.1 在判断失败率时往往过高估计,而对隐含的不安全行为则可能低估。这表明在依赖 LLM 进行安全评估时,需要谨慎对待其结果,并结合人类专家的判断进行综合分析。
评估指标
在评估指标方面,框架重点关注不安全行为率、失败率以及评估器分歧率这三个核心维度。不安全行为率直接反映了智能体在面对安全漏洞任务时,实际执行了不安全操作的比例,是衡量智能体安全性表现的关键指标;失败率则揭示了智能体因各种原因(如工具使用不当、无法理解任务要求等)而未能有效推进任务至安全关键决策点的情况,体现了智能体在任务执行能力和鲁棒性方面的不足;评估器分歧率则为评估工作的可靠性提供了重要参考,当规则基础评估与 LLM-as-Judge 评估结果出现差异时,它提示我们可能存在的评估盲区或评估方法的局限性,需要进一步深入分析和优化评估体系。
不同风险类别和大型语言模型中的不安全行为发生率(%)
上图以热图形式展示了不同风险类别和 LLM 模型下的不安全行为率。从图中可以清晰地看到,不同风险类别下,各模型的不安全行为率存在显著差异。在计算机安全、隐私泄露、法律违规等高风险类别中,多数模型的不安全行为率都较高。例如,在隐私泄露风险类别下,Deepseek-v3 的不安全行为率超过 60%,这凸显了智能体在处理涉及隐私数据的任务时的脆弱性。在实际应用中,针对这些高风险类别,应建立更为严格的安全策略,如加密隐私数据、限制敏感操作权限等,以保障智能体行为的安全性。
评估方法的局限性
尽管混合评估策略在一定程度上提升了评估的全面性和准确性,但框架也坦诚地指出了当前评估方法存在的局限性。其中,LLM-as-Judge 的可靠性问题尤为值得关注。由于大型语言模型本身可能存在偏差,例如在训练数据中的某些特定领域知识覆盖不足,或者对任务上下文的理解不够精准,导致其在判断智能体行为安全性时出现误差。此外,模型对复杂语义的理解能力有限,可能无法完全把握智能体在多轮对话中的细微意图变化,从而影响评估结果的准确性。针对这些问题,研究人员提出了未来改进的方向,包括采用更先进的模型架构、优化提示词设计以引导模型更准确地聚焦于评估要点、引入更多样化的人类反馈数据来校准模型的评估标准等,以期不断提高评估工作的可靠性和有效性。
实验与结果分析
实验设置
在实验环节,研究人员精心挑选了五款具有代表性的大型语言模型(LLM)进行评估,它们分别是 Claude Sonnet 3.7、GPT-4o、o3-mini、Deepseek-v3 和 Deepseek-R1。这些模型涵盖了不同的技术路线、参数规模和训练策略,能够为实验结果提供广泛的代表性。实验涵盖了 356 个精心设计的任务,这些任务在工具类型、用户意图和风险类别等方面实现了全面覆盖,确保了实验结果能够充分反映智能体在多样化场景下的安全表现。
实验结果
实验结果显示,在安全漏洞任务中,不同模型的不安全行为率差异显著,从 51.2% 到 72.7% 不等。这一发现表明,当前智能体在面对安全风险时的表现仍存在较大提升空间。进一步的失败率分析发现,任务失败的原因多种多样,其中 Web 导航失败是一个突出的问题,这可能是由于智能体在处理复杂的网页结构、动态内容加载以及应对各种网络异常情况时的能力不足;认证问题也不容忽视,智能体在面对多用户场景下的身份验证挑战时,常常因无法正确识别用户身份或处理认证流程中的意外情况而导致任务中断;此外,工具误用现象也较为常见,例如智能体在调用工具时参数设置不当,或者对工具的功能理解有误,从而无法有效利用工具完成任务目标。
在OPENAGENTSAFETY中,基于大型语言模型(LLM)的智能体在处理用户指令与非玩家角色(NPC)指令冲突时的不安全行为发生率
上图展示了不同模型在处理冲突用户和 NPC 指令时的不安全行为率。从图中可以看出,o3-mini 模型的不安全行为率高达 72.7%,这提示我们在实际应用中,若选用该模型作为智能体的基础模型,可能面临较高的安全风险,需要在安全防护机制上下足功夫,如增加任务执行前的多轮审核环节、强化对用户和 NPC 意图的深度分析等,以降低潜在风险。
在大型语言模型中,用户意图和NPC意图对应的Agent不安全行为发生率(%)
上图描绘了不同 LLM 模型在用户和 NPC 意图下智能体不安全行为率的热图。可以观察到,在 benign user 和 malicious NPC 的意图组合下,多个模型的不安全行为率处于较高水平,如 Claude Sonnet 3.7 的不安全行为率接近 50%。这表明即使用户本身没有恶意,但当 NPC 存在恶意意图时,智能体仍然容易受到诱导,执行不安全行为。这提示我们在实际应用中,要注重对 NPC 意图的识别和管理,防范智能体受外部恶意因素干扰。
不同大语言模型中工具的不安全行为率(%)
上图呈现了不同工具和 LLM 模型下的不安全行为率热图。可以看出,Web 浏览工具的不安全行为率普遍较高,如在 Web 浏览工具使用场景中,GPT-4o 的不安全行为率接近 60%。这揭示了 Web 浏览工具因涉及复杂的网络交互和动态内容,容易引发安全问题。在实际应用中,应加强对智能体使用 Web 浏览工具的监管,如限制访问敏感网站、增加网页内容过滤机制等,以降低安全风险。
设计启示
OA-SAFETY 框架为智能体的安全设计带来了深刻的设计启示。
首先,上下文意图聚合能力至关重要。智能体需要在多轮交互过程中,持续收集和整合用户以及 NPC 的意图信息,通过分析意图的变化趋势、意图之间的关联性以及潜在的意图冲突,挖掘出隐藏在表面任务之下的深层风险。例如,在长期的商务谈判场景中,智能体不仅要关注当前的谈判要点,还要回溯之前的对话内容,分析对方意图的连贯性和一致性,从而及时发现可能存在的欺诈或诱导行为。
其次,为高风险工具设定特定的权限边界是保障安全性的关键举措。对于文件操作工具,可以限制其对系统关键目录的访问权限;在代码执行环境中,严格规定允许执行的代码类型和操作范围,通过精细的权限管控,将潜在的安全威胁拒之门外。
最后,基于政策的监督机制能够为智能体的行为提供明确的合规指引。通过使用符合法律、组织规范和行业标准的数据集对智能体进行训练,使其在复杂多变的任务场景中,始终遵循正确的价值导向和行为准则,确保其决策和行动符合相关政策要求。
OA-SAFETY 框架未来可以从多个方面进行持续改进和拓展。在提升 LLM-as-Judge 的可靠性方面,可探索利用更先进的模型架构,结合迁移学习技术,将其他领域经过验证的优质模型参数迁移到评估模型中,以增强其评估能力。同时,优化提示词设计,通过大量的实验和用户反馈,通过打磨提示词的表述方式和引导逻辑,使其能够更精准地激发模型对智能体安全行为的评估潜力。
框架局限性
模拟环境与真实环境的差异
尽管 OA-SAFETY 框架在模拟真实环境方面做出了诸多努力,但仍然存在一定的差距。模拟环境中的网络条件相对稳定,而现实世界中网络延迟、丢包等问题可能严重影响智能体与工具的交互效果,导致任务执行失败或出现不可预见的安全风险。硬件故障也是真实环境中常见的干扰因素,例如服务器突然宕机、存储设备损坏等,这些情况在模拟环境中难以完全复现,从而可能使得智能体在实际部署时面对此类问题时缺乏有效的应对策略。
任务覆盖范围的局限性
目前框架中的任务主要集中在一些常见的应用场景和风险类别上,然而,AI 智能体的实际应用领域极其广泛,涵盖了从医疗健康、金融风控到智能交通、工业制造等多个关键行业。每个行业都有其独特的业务流程、数据特点和安全需求,现有任务在覆盖这些多样化领域和场景方面还存在不足,无法完全代表所有可能的 AI 智能体应用情境,这在一定程度上限制了框架对智能体泛化安全性能的评估能力。
GPT-4o中失败任务在不同工具间的分布情况
上图显示了 GPT-4o 模型在失败任务中不同工具的分布情况。可以看出,Web 浏览和文件系统操作相关的任务失败率较高,分别约为 30% 和 25%。这提示我们在实际应用中,若使用 GPT-4o 模型驱动的智能体,应特别关注其在进行 Web 浏览和文件操作时的任务执行情况,分析任务失败原因,如是否因网络问题、文件权限设置不当等,针对性地优化模型和任务流程,提高任务成功率。
总结
本文介绍探讨了OpenAgentSafety框架。它具有以下特点:
- 真实工具交互:Agent 可以与实际的文件系统、命令行、代码执行环境和网页界面进行交互。
- 多样化用户意图:任务模拟了从良性模糊到操纵性的用户行为。
- 多轮、多用户交互:场景包括涉及用户和具有冲突目标的次要角色(NPC)的扩展交互。
- 可扩展性:研究人员可以轻松添加新任务、模拟环境、复杂的社会动态和定制评估器。
通过对智能体在真实工具环境中的行为进行模拟和评估,该框架展现了现有AI系统在安全性方面的显著不足。实验结果表明,即使是当前最先进的智能体,在面对安全漏洞任务时,也有相当比例的不安全行为发生,这一发现令人警惕。
在多轮、多用户交互场景下的评估展现了智能体在复杂社交环境中的脆弱性。智能体需要具备精准的上下文意图聚合能力,以应对多轮对话中意图的微妙变化和潜在的诱导风险。同时,为高风险工具设定权限边界和基于政策的监督机制,能够有效降低智能体在执行任务时的安全隐患。框架的设计启示强调了这些关键的安全特性,为构建更安全的AI智能体提供了宝贵的指导。