AI在线 AI在线

Gartner高级研究总监赵宇:技术跃升带来的隐忧,探索AI智能体的安全挑战与治理

2024年,生成式AI与大模型的爆发式增长,推动AI技术从“工具辅助”迈向“自主决策”的新阶段。 AI智能体(AI Agent)作为这一趋势的核心载体,正逐渐渗透至企业服务、智能制造、金融、医疗等关键领域。 然而,技术的快速迭代往往伴随着未被充分认知的风险。

2024年,生成式AI与大模型的爆发式增长,推动AI技术从“工具辅助”迈向“自主决策”的新阶段。AI智能体(AI Agent)作为这一趋势的核心载体,正逐渐渗透至企业服务、智能制造、金融、医疗等关键领域。然而,技术的快速迭代往往伴随着未被充分认知的风险。

近日,Gartner高级研究总监赵宇(Angela Zhao)在接受媒体采访时深入剖析了AI智能体的技术架构、安全挑战及应对策略。作为长期关注AI安全的研究者,赵宇指出,AI智能体的自主决策能力使其成为“特权访问者”,但当前行业对安全风险的认知不足,治理框架的缺失,将成为AI智能体技术落地的最大阻碍。

从感知到执行,AI智能体的核心逻辑

随着大语言模型、深度学习等技术的不断进步,智能体的能力得到了显著提升。它们不仅能够感知外部环境、理解用户指令,还能根据目标和上下文进行自主规划和决策。这种自主性和灵活性使得智能体在金融、医疗、制造等多个领域展现出巨大的应用潜力。

在赵宇的解读中,AI智能体的本质是“大模型+工具+工作流”的集成体。与传统生成式AI不同,智能体通过感知环境、自主规划、调用工具、执行任务,形成闭环决策能力。她以一张技术架构图为例,将智能体拆解为五大模块:

1)感知模块:采集外部信息与用户指令;

2)目标模块(Goal):定义智能体的存在目的与任务导向;

3)规划模块:基于感知信息和历史记忆生成任务方案;

4)工具模块:调度外部API或物理设备;

5)记忆模块:存储任务上下文与历史行为数据。

“智能体的核心在于动态环境中的持续交互。例如,自动驾驶中的智能体需实时解析道路信息,而工业场景中的智能体可能需协调多台设备。”赵宇强调,这种复杂性使得传统生成式AI的“输入-输出”模式被彻底颠覆。

从幻觉到物理失控,四类威胁亟需关注

虽然技术的快速发展让AI智能体正在从科幻概念演变为重塑产业格局的核心引擎,但是当这些具备自主决策能力的数字实体深入金融、医疗、制造等命脉领域时,其安全问题已不再是单纯的技术挑战,而是关乎数字经济存续的战略命题。

赵宇表示,尽管AI智能体展现出巨大潜力,但其安全风险呈现“放大效应”。在赵宇看来,AI智能体主要存在四类威胁:

一是风险放大。首先是大模型的幻觉。大模型的概率性输出特性,在动态环境中可能导致严重误判,。例如,自动驾驶智能体若错误识别交通标志,可能引发事故。其次是提示注入攻击。攻击者通过篡改工具名称或描述(如MCP协议中的“Rug Pull攻击”),诱导智能体执行恶意指令。赵宇特别提到扩展的供应链风险——攻击链延长至第三方甚至第四方服务,追踪难度陡增。

二是自主决策风险。“智能体的行为基线难以定义。”赵宇表示,传统安全依赖静态行为分析,但智能体可能因持续学习偏离预设路径。例如,金融领域的智能体若擅自调整风控策略,可能导致系统性风险。

三是多智能体交互。在多智能体协作场景中,访问控制漏洞可能引发权限滥用。赵宇以“级联失控”为例解释:“若一个智能体被攻破,攻击者可能通过其凭据横向渗透至整个系统。”此外,资源竞争可能导致任务冲突,影响业务稳定性。

四是物理环境交互风险。主要包括传感器欺骗、恶意指令篡改、隐私泄漏三类。赵宇以辅助驾驶为例,进行了详细的介绍。她表示,伪造交通标志或声波干扰语音助手,可能造成重大的安全事故。赵宇强调,物理环境交互风险是最危险却最被忽视的领

在与中国企业的交流中,约70%的客户对AI智能体的基础概念尚不清晰,更遑论安全风险。赵宇表示,厂商侧同样存在问题——多数企业未配备专职安全团队,产品安全性存疑。

“许多企业将智能体与自动化工作流混为一谈,实际上两者在自主性上有本质差异。”赵宇提醒,盲目追求“快速上线”可能埋下隐患。

从技术加固到生态治理,Gartner规划出安全应对策略

在本场媒体沟通会上,赵宇不但分享了AI智能体与传统AI存在的差异性风险,还针对每一种风险,给出了详细的防护措施。总结归纳一下,Gartner给出的这套防御体系,包括技术层和生态层两大层面。

在技术层面,一是通过对抗训练提升模型鲁棒性;二是通过边界控制,限制智能体可访问的工具与数据(如API白名单);三是通过动态监控,实时追踪行为日志,建立自动化响应机制。

针对多智能体场景,赵宇建议采用“零信任架构”,为每个智能体分配独立凭证,并实施最小权限原则。她表示,资源隔离与动态配额同样关键,例如为高优先级任务预留计算资源。

在生态层面,通过供应链安全,扫描开源组件漏洞,采用“AI物料清单”管理依赖项;利用物理防护,通过多传感器交叉验证降低欺骗风险,部署紧急停止机制;借助隐私保护,利用边缘计算减少数据回传,结合动态数据掩码技术。

赵宇坦言,由于AI智能体目前处于探索期,全球范围内缺乏统一的AI智能体安全标准。国内虽有一些机构发布技术要求,但细则尚未公开。她呼吁企业“边实践边治理”。

尽管挑战重重,赵宇对AI智能体的未来持谨慎乐观态度。她表示,用AI对抗AI或是终极方案。目前已有企业尝试利用AI实时监控智能体行为,但准确性仍需提升。MITRE ATT&CK等组织正构建针对智能体的攻击战术库,为防御提供理论框架。

除此之外,通过开源技术社区与跨国开发者协作,可能会产生重大的突破,或许能从底层推动协议标准化。

结语:安全是AI智能体“向实而生”的前提

虽然 AI智能体看起来比较火热,但是短期内AI智能体会优先应用于企业服务场景(如客服、文档处理),而C端应用会面临较大的隐私与权限问题的挑战。但无论如何,企业需为智能体分配独立身份,避免直接继承用户权限。

采访尾声,赵宇反复强调“安全需从Day One开始”:“技术可以试错,但安全没有回头路。尤其是涉及物理环境的场景,一次事故足以摧毁公众信任。”

在赵宇看来,AI智能体的发展正站在十字路口——是成为推动效率革命的“新引擎”,还是因安全缺位沦为“失控的武器”,取决于企业、厂商与监管机构的共同抉择。

“慢下来,或许才能走得更远。”赵宇如是说。

相关资讯

一文说清楚分布式思维状态:由事件驱动的多智能体系统

译者 | 核子可乐审校 | 重楼大语言模型的能力上限止步于聊天机器人、问答系统、翻译等特定语言,要想进一步展现潜力、解决更广泛的问题,就必须想办法让它根据洞察力采取行动。 换言之,只有掌握了推理的武器,大语言模型才算真正的完全体。 这种推理智能体在AI研究领域有着悠久历史,他们能够对以往接触过的情况进行概括,再据此处理从未见过的情况。
2/19/2025 10:49:24 AM
核子可乐

如何使用Java设计一套多智能体系统

译者 | 核子可乐审校 | 重楼2025年将成为AI智能体之年。 在本文的场景中,AI智能体是一套能够利用AI通过一系列步骤实现目标的系统,且具备就结果进行推理及更正的能力。 在实践中,智能体遵循的步骤可总结成图表形式。
2/21/2025 8:17:13 AM
核子可乐

浏览器智能体崛起:Convergence Proxy为何会碾压OpenAI Operator?

一股新的AI浏览器智能体浪潮正改变企业与网络的互动。 一股新的AI驱动的浏览器智能体浪潮正在兴起,有望改变企业与网络的互动方式。 这些智能体能够自主浏览网站、检索信息,甚至完成交易——但早期测试显示,其承诺的性能与实际表现之间存在显著差距。
2/24/2025 11:57:00 AM
Matt Marshall
  • 1