大家好,我是肆〇柒。今天想跟大家深入聊聊 AI 智能体协议这个极具前瞻性的话题。关于智能体协议,我跟了一段时间,发现它就像是打开智能体协作大门的一把钥匙,特别有意思,而且对未来的智能生态影响深远。
如今,大型语言模型(LLM)就像一股不可阻挡的浪潮,正在席卷各个行业。从智能写作到语言翻译,从智能客服到数据挖掘,再到医疗辅助诊断,LLM 智能体的应用场景简直多得数不过来。它们正无处不在地改变着我们的生活方式。比如,智能写作工具能帮我们快速生成高质量的文章;智能客服能 24 小时不间断为用户提供一个大型的互联网公司,每天要处理海量的数据和复杂的业务流程。以前,这些任务主要依赖人工或者简单的自动化脚本来完成,但随着业务的增长,这种方式在未来会面临无法满足需求的问题。
随着不同供应商、不同架构的智能体大量涌现,智能体与外部工具或数据源之间的交互规则变得越来越复杂。就好比一堆不同国家、不同语言的人凑在一起,大家各自有自己的表达方式,却找不到一种通用的语言来交流。这种缺乏标准化协议的局面,就像在智能体世界的交通要道上设置了重重关卡,会严重阻碍智能体的发展。智能体与资源的互操作性大打折扣。很多智能体面对外部工具和数据源时,常常因为接口不匹配、数据格式不一致等问题,无法顺利获取所需信息。
这就像是你伸手去拿东西,却发现那只手和物体之间像是被一道无形的墙隔开,怎么也碰不到一块去。而且,智能体网络的可扩展性也受到极大限制。每新增一个智能体或工具,可能都要重新调整整个系统的交互逻辑,这无疑增加了系统的复杂性和维护成本。更关键的是,智能体解决复杂现实问题的能力也被削弱不少。在很多实际场景中,完成一个复杂任务往往需要多个智能体协同工作,但缺乏统一协议使得这种协作变得困难重重,智能体们各自为战,难以形成强大的合力。
智能体互联网生态系统的分层架构
所以,制定统一的智能体通信协议变得迫在眉睫。这就好比为智能体世界设立一套通用的交通规则和语言体系,让所有智能体都能按照统一的标准来交流和协作。它不仅能解决当前的互操作性问题,让智能体们不再为 “语言不通” 而发愁;更能构建一个智能体网络,实现不同形式的智能流通与融合。如果未来智能体们可以自由组合、相互配合,共同完成复杂任务,催生出强大的集体智能,这会为我们带来前所未有的创新与变革。
智能体协议的内涵与价值
定义与功能
智能体协议其实就是智能体世界的 “通用语言” 和 “行为准则”,它是一套标准化的框架,精心定义了智能体与智能体、智能体与外部系统之间结构化通信的规则、格式和程序。就好比我们人类社会的各种交通规则、社交礼仪,它让智能体的交流变得有序、高效。
它的功能非常强大。
1.智能体协议能轻松实现智能体与外部资源的无缝互操作。这就像是给智能体配备了一把万能钥匙,让它能够在各种外部资源的宝库中自由穿梭,随时获取所需信息。比如,一个智能体需要调用天气预报 API 来完成任务,有了智能体协议,它就能轻松识别 API 的接口和数据格式,快速获取天气数据。
2.它确保交互过程的标准化。这就像是给智能体的交流戴上了一顶 “规范帽子”,让所有的沟通都有章可循。不管是哪个供应商开发的智能体,不管是用于什么场景的智能体,只要遵循智能体协议,它们就能像训练有素的士兵一样,按照统一的队形和步伐进行协作。
3.智能体协议简化了智能体整合新功能的过程。它就像是智能体的 “能力扩展插件”,让智能体能够快速适应不断变化的需求。当有新的工具或服务出现时,智能体不需要进行大规模改造,只需要按照协议稍作调整,就能轻松接入新功能。
4.它还提供严密的安全治理机制。这就像是给智能体的交流筑起一道坚固的城墙,抵御各种安全威胁。比如,通过加密技术、身份认证等手段,智能体协议能够防止数据泄露、恶意攻击等问题,为智能体的运行保驾护航。
5.智能体协议大幅降低智能体开发的复杂性。它就像是智能体开发者的 “贴心助手”,让开发者能够专注于核心功能的创新,而不必为复杂的交互逻辑烦恼。开发者可以基于统一的协议框架,快速开发出功能强大的智能体,大大提高了开发效率。
与传统交互方式的优势
我们对比一下智能体协议和传统交互机制,就可以发现智能体协议的优势非常明显。传统 API 虽然高效,但在灵活性和标准化方面稍显逊色。它就像是一个只能在固定轨道上运行的列车,虽然速度快,但一旦遇到轨道变化或需要与其他系统进行复杂交互时,就会显得无能为力。GUI 为用户提供了直观的界面,但在效率和 AI 兼容性上有所欠缺。它更像是一个为人类设计的精美操作手册,虽然看起来很友好,但对于智能体来说,却难以直接理解和操作。XML 则因效率低下和标准化不足而逐渐被边缘化。它就像是一个古老的语言,虽然有一定表达能力,但在快节奏、高要求的智能体世界中,已经很难满足需求。
而智能体协议则不同,它集高效率、广泛的操作范围、强大的标准化能力和与 AI 系统的完美兼容性于一身。它为智能体提供了灵活多样的交互方式,无论是简单的数据查询,还是复杂的任务协作,都能轻松应对。而且,它还能与 AI 系统深度集成,让智能体的交流更加自然、智能。在复杂的智能体生态系统交互中,智能体协议可以让智能体们能够真正实现高效、有序的协作。
智能体协议发展的概览,此图太宽,为了编译浏览细节,我将它横置,同时方便手机横屏阅读
智能体协议的分类
维度一:面向对象
智能体协议就像是一个大家庭,其成员根据面向对象的不同,可分为面向上下文和面向智能体交互两大类。
面向上下文的协议,就像是智能体的 “百科全书”,专注于为智能体提供丰富的背景信息。它让智能体能够更好地理解任务和环境,就像我们人类在做决策时会参考各种背景知识一样。例如,当智能体需要回答一个关于历史事件的问题时,面向上下文的协议可以帮助它从海量的历史数据中提取相关信息,为用户提供实用指南。
面向智能体交互的协议,则更像是智能体社会的 “社交网络”,侧重于智能体之间的沟通与协作。它构建起智能体之间的交流渠道,让智能体们能够像朋友之间聊天一样,分享信息、协调行动。比如,在一个复杂的任务中,多个智能体可以通过面向智能体交互的协议,共同商讨任务分工、共享进度信息,最终合力完成任务。
维度二:应用场景
更细致地看,这个大家庭中的成员还可根据应用场景的不同,细分为通用型和特定领域型。
通用型协议就像是智能体世界的 “万能钥匙”,致力于为各种实体提供统一接口。它不局限于某个特定领域,而是试图构建一个通用的交流平台,让不同背景的智能体都能在这个平台上互动。这就像是一个大型的国际会议,来自不同国家、不同行业的代表都能在这个平台上交流观点、分享经验。
特定领域型协议则更像是 “专业工匠”,针对特定领域的独特需求进行优化。它为智能体在专业领域的深度应用提供精准支持。例如,在医疗领域,特定领域型协议可以让医疗智能体与各种医疗设备、医疗数据库进行高效交互,为医生提供精准的诊断建议;在金融领域,它可以助力金融智能体快速分析市场数据,为投资者提供决策参考。这种针对性的设计,能够满足不同用户和开发者在特定场景下的个性化需求,让智能体在专业领域发挥更大的价值。
从两个维度(面向对象和应用场景)对各种智能体协议进行分类
常见智能体协议详解
面向上下文的通用型协议——MCP
Anthropic 提出的模型上下文协议(MCP)在智能体协议领域占据着举足轻重的地位。它宛如智能体与外部资源之间的桥梁,通过标准化上下文获取连接,让智能体能够轻松访问外部数据、工具和服务。MCP 的核心优势在于其独特的解耦设计,巧妙地将工具调用和 LLM 响应分开,极大地增强了隐私和安全性。当智能体需要获取特定信息时,它不再是直接执行函数调用,而是先明确所需资源和参数,这一过程由本地客户端负责构建和执行实际的上下文请求,从而确保敏感信息得以离线存储,有效避免数据泄露的风险。
MCP 的架构精妙而复杂,主要由主机、客户端、服务器和资源四个部分构成。主机作为智能体的核心,负责与用户交互、理解用户需求、选择合适的工具并发起上下文请求;客户端连接主机和服务器,提供可用资源的描述,并根据主机指令发起具体的上下文请求;服务器则与资源相连,根据客户端请求从资源中获取所需上下文并返回;资源则是数据、工具或服务的提供者,可以是本地或远程的。例如,当用户询问特定日期和地点的天气时,主机利用 LLM 的理解和推理能力,判断需要从天气 API 获取数据。多个客户端连接到主机,提供可用资源的自然语言描述。主机根据这些信息,确定向哪个资源请求上下文,并向对应的客户端发起战略性的上下文请求。客户端随后向服务器发送执行上下文请求,包括数据查询或工具调用等操作。服务器处理请求后,将获得的上下文传递给客户端,客户端再转交给主机。主机结合这些上下文,形成对用户查询的完整回答,完成一次 MCP 调用周期。
关于 MCP 我还发过另外三篇文章,如果有兴趣可以阅读,方便你对 MCP 有更全面的了解。(点击👉)《MCP:AI 与工具交互的“瑞士军刀”》,《MCP协议的安全隐患:AI智能体的“隐形炸弹”》,《MCP 安全:守护 AI 系统的 “神经中枢”》
面向上下文的特定领域型协议——agents.json
WildCardAI 提出的 agents.json 规范,宛如传统 API 与 AI 智能体之间的粘合剂,巧妙地在两者之间架起了一座桥梁。它基于 OpenAPI 标准,以结构化的 JSON 文件形式,让网站能够清晰地声明 AI 兼容接口、认证方案和多步骤工作流。与专为人类开发者设计的常规 OpenAPI 规范不同,agents.json 引入了流程和链接等新构造,流程是预定义的 API 调用序列,而链接则映射了动作间的数据依赖关系,这些特性使得大型语言模型(LLMs)能够可靠地进行编排。通过提供清晰、标准化的智能体交互架构,agents.json 简化了智能体与网站的集成过程,减少了提示工程的需求,同时显著提升了 API 在智能体环境中的可发现性和可用性。
面向智能体交互的通用型协议
- ANP :开源技术社区开发的智能体网络协议(ANP),承载着构建智能体协作网络的伟大愿景。其核心原则涵盖互联互通、原生接口和高效协作。互联互通致力于打破智能体之间的隔阂,实现无障碍通信,让智能体能够跨越数据孤岛,获取完整的上下文信息;原生接口让智能体摆脱人类交互习惯的束缚,通过 API 和协议与数字世界进行优化交流;高效协作则借助自动组织和自动谈判机制,助力智能体建立起成本更低、效率更高的协作网络。ANP 的架构分为三个核心层,身份和加密通信层利用 W3C DID 标准建立去中心化身份认证机制,实现端到端加密通信;元协议层作为协议的协议,支持智能体使用自然语言自主协商和协调通信协议,如 Agora;应用协议层则定义标准化协议,规范智能体的发现、信息描述、能力展示和接口提供,以及用于完成特定领域任务的应用协议。例如,一个本地智能体首先通过标准化发现路径检索其他智能体列表,然后访问列表中引用的智能体描述文件。根据描述文件中的信息,智能体利用所需接口发起交互,构建格式正确的请求,附加认证凭证,发送请求并处理相应的响应。
- A2A :谷歌提出的 Agent To Agent 协议(A2A)专注于企业环境中智能体的无缝协作。它遵循简洁性原则,重用现有标准,如采用 HTTP(S)作为传输层,JSON-RPC 2.0 作为消息格式,Server-Sent Events(SSE)用于流式传输,这种轻量级协议设计有效降低了学习曲线和实现复杂性;企业级应用原则意味着协议内置了对认证、授权、安全、隐私、可追溯性和可观测性的考量,确保智能体在生产环境中稳健、安全地运行;异步优先架构以任务为中心,支持长时间运行的异步工作流,包括多轮次的人工介入交互场景,涵盖轮询、基于 SSE 的更新和推送通知等多种异步模式,实现实时反馈、通知和任务状态更新;多模态支持使 A2A 原生兼容文本、文件、表单、媒体格式(如音频/视频流和嵌入式框架)等,体现了智能体环境的多模态特性;不透明执行原则下,智能体交互无需共享思维、计划或工具,聚焦于上下文、状态、指令和数据,保护实现隐私和知识产权,但共享任务相关元数据,形成半透明协作,存在资源暴露风险。A2A 定义了智能体卡片、任务、工件、消息和组件等关键概念,共同构建起智能体及其协作工作流的描述框架。在工作流程中,远程智能体通过 JSON 格式的 “智能体卡片” 展示能力,使客户端智能体能够识别出最适合执行任务的智能体。随后,客户端智能体借助 A2A 与远程智能体通信以完成任务,任务对象可以立即完成或长期运行,最终由远程智能体以工件形式输出任务结果。
- AITP :NEAR 提出的智能体交互与交易协议(AITP)聚焦于不同组织或个人的智能体间的安全通信、谈判和价值交换。在航班预订场景中,个人助理智能体可借助 AITP 直接与航空公司预订智能体交互,无需浏览航空公司网站,即可完成航班、乘客和支付信息的交换。AITP 的核心在于其明确关注跨信任边界智能体交互,运用区块链技术应对去中心化多智能体环境中的身份、安全和数据完整性挑战,为智能体间的交互提供坚实保障。
- AConP :思科提出的智能体连接协议(AConP)精心定义了智能体调用和配置的标准接口,涵盖智能体检索、执行、中断与恢复、线程管理和输出流等五个关键方面的 API。这些 API 构成了与智能体交互的完整使用流程。智能体 ACP 描述符存储了调用智能体所需的关键信息,包括智能体的唯一标识、能力描述以及能力消费方式。从严格意义上说,AConP 主要聚焦于定义连接和利用智能体的标准接口,而非直接促进智能体间的交互。然而,借助 ACP 描述符与 API 集成,智能体能够实现互联互通与协作。
- AComP :AI 和数据基金会提出的智能体通信协议(AComP)目的是标准化智能体间的通信方式,助力自动化实现、智能体协作、 UI 集成以及开发工具建设。AComP 并非急于制定严格规范,而是优先考虑实用、有价值的功能,随后对经验证具有价值的特性进行标准化,以此确保更广泛的采纳和长期兼容性。当前智能体系统因采用多样化的通信标准而面临复杂性、集成难题和供应商锁定困境,AComP 通过适应智能体特定需求,努力简化集成流程,推动智能体生态系统内有效协作。
- Agora :Agora 协议巧妙地借助大型语言模型(LLM)在自然语言理解、代码生成和自主谈判方面的能力,成功化解异构 LLM 智能体网络通信中多功能性、效率和可移植性三难困境。它创新性地引入协议文档(PDs),赋予智能体自主协商、实施、适应甚至创建新协议的能力,从而极大提升智能体通信的灵活性与适应性,使其能够轻松应对各种复杂场景。
面向智能体交互的特定领域型协议
- 人 - 智能体交互协议(PXP 协议和 LOKA 协议) :PXP 协议宛如人类专家与机器智能体之间的翻译官,在任务导向对话中搭建起双向可理解的桥梁。它借助有限状态机模型,引入 RATIFY、REFUTE、REVISE 和 REJECT 四种标签,根据智能体间预测和解释的契合度来确定交互方式,确保双方能够清晰理解彼此意图。LOKA 协议则致力于为 AI 智能体生态系统构建坚实的去中心化身份、信任和道德协调基础,引入通用智能体身份层(UAIL),为智能体赋予独特、可验证的身份标识,从而实现安全认证、责任追溯和互操作性。在此基础上,该协议融入基于意图的通信协议,实现不同智能体间的语义协调。其核心亮点是去中心化伦理共识协议(DECP),使智能体能够基于共享的伦理基准做出契合上下文的决策。该协议以分散式标识符(DIDs)、可验证凭证(VCs)和抗量子密码学等新兴标准为支撑,目的是为多智能体 AI 治理打造一个具备扩展性和未来适应性的蓝图,将身份、信任和伦理融入协议底层,为数字与物理领域的智能体生态系统奠定基础。
- 机器人 - 智能体交互协议(CrowdES 和 SPPs) :CrowdES 协议为机器人环境中的真实人群动态模拟带来了新的解决方案,它巧妙结合人群发射器和人群模拟器,利用扩散模型为个体赋予属性,并借助马尔可夫链状态切换机制生成多样化运动轨迹。SPPs 协议则专注于解决匿名机器人之间的分布式定位问题,通过创新的协议设计,使机器人能够在任意初始位置和坐标系下达成统一坐标系共识。无论是自我稳定距离查询协议,还是基于领导者的距离查询协议和自我稳定向量查询协议,都为机器人 - 智能体交互提供了强大的技术支持,助力机器人在复杂环境中实现高效协调、感知和空间推理。
- 系统 - 智能体交互协议(LMOS、Agent Protocol) :LMOS 协议作为构建智能体互联网(IoA)基础架构的基石,采用三层结构设计,包括应用协议层、传输协议层和身份与安全层。它提供去中心化智能体/工具描述、元数据传播机制、群组管理协议和灵活的智能体通信接口等关键组件,为智能体的发现、交互和协作提供了全方位支持。Agent Protocol 则以框架无关的通信标准为定位,基于 OpenAPI v3 定义统一接口,精准执行智能体生命周期的核心操作,如启动、停止和监控。它引入运行、线程和存储等核心抽象概念,助力开发者高效编排异构智能体,推动多智能体环境的互操作性、可扩展性和操作透明性迈向新高度。
智能体协议的评估与比较
评估维度
评估智能体协议就像是对一个复杂机器进行多维度的精准测量,涉及众多关键维度。
效率方面,重点关注吞吐量、延迟、资源利用率等指标。这就像是考察一个快递系统的效率,吞吐量就像是快递员一天能送多少包裹;延迟就像是包裹从发货到收货需要多长时间;资源利用率则像是快递员在送包裹过程中对车辆、时间等资源的利用情况。在多智能体和智能体 - 工具交互中,这些指标直接决定了通信的速度和资源消耗。例如,在一个高频交易场景中,智能体需要快速获取市场数据并作出决策,高吞吐量和低延迟的协议能够确保交易的及时性和准确性。
可扩展性涵盖节点可扩展性、链接可扩展性和能力协商。这就像是考察一个城市的交通系统能否适应人口增长和车辆增加。节点可扩展性就像是看这个系统能否容纳更多的车辆(智能体);链接可扩展性则是看道路上的车道(通信链接)能否随着交通流量增加而扩展;能力协商就像是车辆之间能否根据路况实时调整行驶速度和路线。在智能体数量不断增长、通信密度不断增加的场景下,这些指标决定了系统能否平稳运行。
安全性维度则聚焦认证模式多样性、角色 / ACL 颗粒度和上下文脱敏机制。这就像是考察一个保险箱的安全性,认证模式多样性就像是保险箱有多种开锁方式,确保只有授权人员能打开;角色 / ACL 颗粒度就像是保险箱内部对不同物品的访问权限设置得非常细致,谁能看到、谁能拿走都一清二楚;上下文脱敏机制则是在信息传递过程中,对敏感信息进行遮盖或替换,就像在寄送重要文件时,把上面的机密部分用黑笔涂掉,确保信息安全。
可靠性通过丢包重传、流量和拥塞控制以及持久连接等机制来保障。这就像是在考察一个电力系统是否稳定,丢包重传就像是电力系统在出现短暂故障后能自动恢复供电;流量和拥塞控制就像是电力系统能根据用电需求自动调节发电量,避免过载;持久连接则像是电力系统的持续供电能力,确保智能体之间的通信不会轻易中断。
可扩展性强调向后兼容、灵活性与适应性以及定制与扩展能力。这就像是考察一个软件是否能随着用户需求的变化而不断升级,向后兼容就像是新版本的软件还能支持旧版本的文件格式;灵活性与适应性则是看软件能否适应不同的操作系统和硬件设备;定制与扩展能力则是看用户能否根据自己的需求对软件进行个性化设置。
可操作性涉及协议栈代码量、部署与配置复杂性以及可观测性。这就像是考察一个机器的操作难度,协议栈代码量就像是机器的零部件数量,零部件越少,机器越容易操作;部署与配置复杂性则是看机器的说明书是否简单易懂,安装是否方便;可观测性就像是机器自带的监控系统,能实时显示机器的运行状态,方便用户进行维护。
互操作性聚焦跨系统跨浏览器兼容性和跨网络跨平台适应性。这就像是考察一个移动应用是否能在不同品牌的手机、不同的操作系统上正常运行,跨系统跨浏览器兼容性就像是应用在安卓和苹果手机上都能流畅使用;跨网络跨平台适应性则是看应用在 4G、5G、Wi-Fi 等不同网络环境下,以及在手机、平板、电脑等不同平台上都能稳定运行,确保智能体在不同环境下的无缝通信。
比较分析
在实际应用场景中,不同智能体协议展现出各自独特的优势与局限性。比如,在需要频繁交互、对延迟敏感的场景下,像 MCP 这样的协议凭借高效的通信机制脱颖而出。MCP 通过解耦工具调用和 LLM 响应,让智能体在获取外部资源时更加灵活高效。而且它的架构设计简洁明了,主机、客户端、服务器和资源各司其职,信息流动清晰有序,就像一个训练有素的团队,成员之间配合默契,能够快速完成任务。
但在安全性要求极高的环境中,像 ANP 这样的协议则更受青睐。ANP 引入去中心化身份认证机制,利用 W3C DID 标准为智能体赋予独特的身份标识,这就像是给每个智能体都发放了一张独一无二的身份证,只有经过严格验证的智能体才能加入协作网络。而且它通过端到端加密技术,确保智能体之间的通信内容不被窃取或篡改,为智能体的交互筑起一道坚不可摧的安全防线。
通过对这些协议在关键维度上的深入比较分析,我们能为智能体协议的选择提供有力依据。就好比在挑选工具时,不同的工作需要不同的工具,我们只有了解每种工具的特点,才能找到最适合特定应用场景的那一个,充分发挥智能体协议的效能。
不同交互方式的特性比较。
交互方式 | API | GUI | XML | 智能体协议 |
场景 | 服务器间集成 | Computer /Mobile Use | Browser Use | 智能体交互 |
效率 | ✓✓ | × | × | ✓✓ |
操作范围 | × | ✓ | ✓ | ✓✓ |
标准化 | × | ✓ | × | ✓✓ |
AI 亲和性 | × | × | × | ✓✓ |
流行智能体协议概览。
实体 | 场景 | 协议 | 提出者 | 应用场景 | 关键技术 | 开发阶段 |
Context-Oriented | General-Purpose | MCP | Anthropic (2024) | 连接智能体和资源 | RPC, OAuth | 事实标准 |
Domain-Specific | agents.json | WildCardAI (2025) | 为智能体提供网站信息 | 无 | 草稿 | |
Inter-Agent | General-Purpose | ANP | Chang (2024) | 智能体互联网中的智能体间通信 | JSON-LD, DID | 已发布 |
A2A | Google (2025) | 企业内智能体间协作 | RPC, OAuth | 已发布 | ||
AITP | NEAR (2025) | 智能体间的通信和价值交换 | 区块链, HTTP | 草稿 | ||
AComP | AI and Data (2025) | 多智能体系统通信 | OpenAPI | 草稿 | ||
Agora | Marro et al. (2024) | 智能体间的元协议 | 协议文档 | 概念 | ||
Domain-Specific | LMOS | Eclipse (2025) | 物联网和智能体 | WOT, DID | 已发布 | |
Agent Protocol | AI Engineer Foundation (2025) | 控制器 - 智能体交互 | RESTful API | 已发布 | ||
LOKA | Ranjan et al. (2025) | 去中心化智能体系统 | DECP | 概念 | ||
PXP | Srinivasan et al. (2024) | 人 - 智能体交互 | 无 | 概念 | ||
CrowdES | Bae et al. (2025) | 机器人 - 智能体交互 | 无 | 概念 | ||
SPPs | Gąsieniec et al. (2024) | 机器人 - 智能体交互 | 无 | 概念 |
不同协议在实际场景中的应用
场景描述
以规划从北京到纽约的五天行程为例。这个任务要求智能体协调航班、酒店、天气等多方面信息,生成一份详细的旅行计划。在这个过程中,智能体需要与多个外部服务进行交互,包括航班查询、酒店预订和天气信息获取等。这就像是一个复杂的拼图游戏,智能体需要把分散在不同地方的信息碎片拼凑起来,形成一幅完整的旅行蓝图。
协议应用分析
- MCP :采用 MCP 协议时,架构呈现出以单个智能体为核心的星型模式。MCP Travel Client 作为核心智能体,直接调用航班服务器、酒店服务器和天气服务器,获取所需信息并生成旅行计划。这种架构的优势在于简单性和易于控制。就好比一个项目经理全权负责一个项目的各个环节,他可以直接指挥各个部门,快速整合资源,生成项目方案。但缺点是缺乏灵活性,核心智能体需要对所有服务及其接口了如指掌,这就像是项目经理必须对每个部门的工作流程和工具都非常熟悉,一旦有新的服务或接口发生变化,他就需要花费大量时间去学习和适应。而且所有通信都必须经过它,容易形成性能瓶颈,就像项目经理如果同时处理太多任务,可能会因为精力有限而影响整个项目的进度。
- A2A :在 A2A 协议下,智能体被组织成逻辑部门,如交通、住宿和活动。每个智能体都有明确的依赖关系,例如航班智能体和活动智能体依赖天气智能体提供环境数据。智能体之间可以直接通信,无需中央协调器介入每一次交互。这就像是一个分工明确的团队,每个成员都有自己的专长和职责,他们可以根据需要直接与其他成员沟通协作。比如,航班智能体如果需要天气信息,它可以随时向天气智能体发送请求,而不需要通过团队领导的批准。这种架构在企业环境中更为灵活,允许服务在需要时建立直接连接,减少不必要的通信开销,支持更复杂的协作模式。就好比团队成员之间建立了高效的沟通渠道,能够快速响应各种突发情况,提高整个团队的工作效率。
- ANP :ANP 协议跨越组织边界,通过标准化的跨域交互实现智能体间的协作。航空公司的航班智能体、酒店智能体和天气网站的天气智能体分别位于不同的组织边界内。跨域协作通过正式的协议请求和响应进行。这就像是不同公司之间的合作,每个公司都有自己的规则和流程,但通过签订合作协议,它们可以实现资源共享和优势互补。例如,航班智能体跨域与天气智能体协商,这就像是航空公司与气象服务公司签订了一份数据共享协议,双方按照协议的规定进行数据交换。这种协议适用于涉及多个组织的场景,每个实体遵循清晰的数据交换协议,特别适合跨组织协作,确保数据安全和业务利益。就好比在国际商业合作中,各方都遵循严格的合同条款,保障自己的权益的同时,也能实现合作共赢。
- Agora :Agora 协议从用户角度出发,将自然语言请求转化为标准化协议。首先对用户请求进行自然语言理解,解析出起点、终点、持续时间、预算等结构化组件。这就像是一个翻译官,把用户的日常语言转化为智能体能够理解的精确指令。然后生成针对不同类型服务的正式协议,分发给专门的智能体(如航班、酒店、天气、预算智能体)。每个智能体根据特定协议进行响应。这就像是把一个复杂的任务分解成多个子任务,分配给不同的专业人员处理。Agora 的三层流程(理解、生成、分发)创建了一个高度适应性的系统,将复杂的问题分解为特定领域的解决方案,使专门的智能体能够专注于各自的核心任务。就好比在一个大型项目中,项目管理团队先把项目分解成多个模块,然后分配给不同的专业团队负责,每个团队只需专注于自己的模块,从而提高整个项目的效率和质量。
如下图是,四种协议在相同用户指令“Plan a five-day trip from Beijing to New York.”下的用例分析
四种协议在相同用户指令下的用例分析
智能体协议的学术展望
短期展望:从静态到可演进
短期内,智能体协议的发展将聚焦于评估和基准测试。我们需要设计一套全面的评估框架,不仅考量任务的成功率,还将通信效率、环境变化适应性、可扩展性等因素纳入评估体系。这就像是为智能体协议制定一套详细的评分标准,从多个角度来衡量它的优劣。
同时,隐私保护协议将受到更多关注。研究如何在敏感领域实现安全、保密的通信,通过授权机制和类似联邦学习的方法,让智能体在保护隐私的前提下协作。这就像是为智能体的交流设立了一个 “隐私保护罩”,确保敏感信息不会泄露出去。
此外,智能体网格协议的概念应运而生,目的是应对智能体数量和复杂性的增加,提高智能体群体通信的效率和协调性。这就像是为智能体构建一个高效的交通网络,让它们能够在复杂的环境中快速、有序地交流。
最后,可演进协议将成为研究热点。这就像是把协议变成一个有生命的实体,让它能够根据任务需求动态调整,成为智能体动态、模块化和可学习的组成部分。想象一下,智能体可以根据不同的任务场景,自动选择最适合的协议模块,就像我们人类根据不同的社交场合,选择合适的语言和行为方式一样。
中期展望:从规则到生态系统
中期来看,将协议内容和结构集成到大型语言模型的参数中具有重要意义。尽管这种方法在适应性方面存在局限性,但对模型提供商而言具有战略意义。这就像是把交通规则直接写进汽车的导航系统,让汽车能够自动按照规则行驶,无需驾驶员时刻提醒。
分层协议架构将成为发展趋势。借鉴经典网络协议设计思路,将低层传输和同步机制与高层语义和任务相关交互分离,提高异构智能体间的模块化和可扩展性。这就像是把一座大楼的结构分成不同的层次,每一层都有自己的功能和职责,让整个大楼更加稳固、灵活。
而且,分层协议架构为动态协议组合奠定基础,使智能体能够根据上下文协商或自动选择适合的交互层。这就像是智能体在不同的社交场合,能够根据情况自动调整自己的交流方式,适应混合人 - AI 环境中不断变化的规范、偏好和目标。
同时,在高层集成伦理、法律和社会约束,使智能体行为与更广泛的社会价值观保持一致。这就像是给智能体的行为设立了一个道德和法律的框架,确保它们的行动不会违背人类社会的基本准则。
长期展望:从协议到智能基础设施
长期而言,研究重点将转向大规模、互联智能体群体中集体智能的涌现。探索智能体和环境的规模法则,即群体规模、通信拓扑和协议配置如何共同塑造系统级行为、涌现特性和鲁棒性。这就像是研究一个庞大的生态系统,看看其中的生物如何相互作用,形成稳定的生态系统。
同时,智能体数据网络(ADN)有望成为现实,这是一种专为自主智能体通信和协调优化的基础数据基础设施。与传统网络相比,ADN 更侧重于机器中心的数据表示,以满足智能体的持续状态同步、长期规划和异步协作等需求。这就像是为智能体构建一个专属的高速公路,让它们能够快速、高效地交流和协作,推动分布式、集体智能的新纪元,重塑智能共享、协调和放大的方式
下表是不同智能体间协议的比较。评估时间为 2025 年 4 月。
智能体间协议 | 核心问题 | 应用场景 | 关键技术 | 开发阶段 |
ANP | 跨域智能体通信 | 智能体互联网中的智能体间通信 | JSON-LD, DID | 已发布 |
A2A | 企业内复杂问题解决 | 企业内智能体协作 | RPC, OAuth | 已发布 |
AITP | 智能体间通信和价值交换 | 智能体安全交易和交互 | 区块链, HTTP | 草稿 |
AConP | 标准化智能体接口调用和配置 | 本地网络中的智能体 | OpenAPI, JSON | 草稿 |
AComP | 标准化实用、有价值的通信特性 | 本地网络中的智能体 | OpenAPI | 草稿 |
下表是从不同维度对协议评估的概述。
维度 | 描述 | 关键指标 |
效率 | 快速、高效的通信。 | • 延迟• 吞吐量• 资源利用率 |
可扩展性 | 随着工具/智能体/网络复杂性增加,性能保持稳定。 | • 节点可扩展性• 链接可扩展性• 能力协商 |
安全性 | 通过认证、访问控制和数据保护,实现可信交互。 | • 认证模式多样性• 角色/ACL 颗粒度• 上下文脱敏机制 |
可靠性 | 确保智能体间通信的稳定、准确和容错。 | • 丢包重传• 流量和拥塞控制• 持久连接 |
可扩展性 | 适应新功能和技术创新,无需破坏现有系统或兼容性。 | • 向后兼容• 灵活性与适应性• 定制与扩展 |
可操作性 | 协议易于实施、管理和集成。 | • 协议栈代码量• 部署与配置复杂性• 可观测性 |
互操作性 | 跨不同平台、系统和网络环境实现无缝通信和协作。 | •跨系统和浏览器兼容性• 跨网络和平台适应性 |
总结与感受
本文深入剖析了现有 AI 智能体协议,涵盖协议的分类、评估、应用场景等多个方面。从智能体协议的定义与价值,到各类协议的详细解读;从评估与比较的关键维度,到实际场景中的应用;再到未来发展的学术展望,我们全方位展示了智能体协议的丰富内涵与广阔前景。
智能体协议的发展对于智能体技术的未来走向具有深远意义。它将打破智能体与工具之间的隔阂,实现动态联盟与知识共享,让智能体能够在共同进化中不断提升能力。未来智能体通信标准有望开启一个全新的分布式、集体智能时代,这不仅将极大地推动智能体技术的进步,还将为解决日益复杂的现实问题提供强大的技术支持,其影响力将渗透到社会的每一个角落,改变我们的生活方式与工作模式。
我相信,随着智能体协议的不断发展和完善,智能体将在更多领域发挥重要作用,为我们的生活带来更多的便利和惊喜。