AI在线 AI在线

微软研究:API 代理速度更快,但 GUI 代理更灵活

近日,微软的研究团队对 API 代理和 GUI 代理进行了对比研究,发现这两种代理各有特点,可以根据不同需求进行合理选择。 API 代理通过可编程接口与软件进行交互,而 GUI 代理则模拟人类的操作方式,通过点击按钮和导航菜单来完成任务。 例如,若要安排一个活动,API 代理可能只需一次函数调用,而 GUI 代理则需要打开日历应用,逐步填写相关信息。

近日,微软的研究团队对 API 代理和 GUI 代理进行了对比研究,发现这两种代理各有特点,可以根据不同需求进行合理选择。API 代理通过可编程接口与软件进行交互,而 GUI 代理则模拟人类的操作方式,通过点击按钮和导航菜单来完成任务。例如,若要安排一个活动,API 代理可能只需一次函数调用,而 GUI 代理则需要打开日历应用,逐步填写相关信息。

对抗 撕逼

在研究中,微软团队评估了这两种代理在九个类别上的表现。其中一个主要差异在于它们与软件的交互方式:API 代理利用函数调用,通常表现得更稳定且出错概率低;而 GUI 代理则依赖于视觉界面内容,虽然效率较低,却具备更高的灵活性。GUI 代理能够控制几乎所有具有可见界面的软件,即使这些软件并不提供 API。

研究还指出,API 代理在安全性和维护上具有优势,因为可以在功能级别限制访问权限,并且受益于版本控制。相比之下,GUI 代理则更加脆弱,稍微的视觉变化就可能导致其无法正常工作。然而,GUI 代理的透明度更高,用户可以清晰地看到每个操作,方便审计。

微软提出了三种结合 API 代理与 GUI 代理的混合系统策略。第一种是通过 API 封装隐藏 GUI 操作,例如将生成财务报告的多步骤过程简化为一个单一的 GenerateReport () 函数。第二种策略是使用编排工具来协调 API 和 GUI 的步骤,适用于数据库查询和信用检查等工作流。第三种策略是低代码和无代码平台,允许非技术用户通过拖放界面构建自动化流程。

在选择合适的代理时,研究团队提供了明确的指导。API 代理适合性能要求高的任务,特别是在与良好文档的接口打交道时,而 GUI 代理则适用于缺乏 API 的旧系统以及移动应用等场景。随着时间的推移,混合系统能够适应新出现的 API,提供更大的灵活性。

划重点:

🌟 API 代理通过函数调用实现快速、稳定的任务完成,适合安全要求高的环境。  

🔄 GUI 代理灵活性强,能够应对视觉界面的变化,适合老旧系统和需要视觉确认的任务。  

🤝 混合系统结合了两者的优点,能根据具体需求选择最优方案,助力自动化进程。

相关资讯

智谱发布并开源代码生成大模型 CodeGeeX 第四代,号称百亿以下规模性能最强

正在进行的 2024 世界人工智能大会(WAIC 2024)期间,智谱 AI 发布并开源代码生成大模型 CodeGeeX 的第四代产品 CodeGeeX4-ALL-9B,集代码补全和生成、代码问答、代码解释器、工具调用、联网搜索、项目级代码问答等所有能力于一体,号称是目前百亿(10B)参数以下性能最强、最全能的代码大模型。据介绍,该模型在 GLM4 的语言能力的基础上大幅增强了代码生成能力。CodeGeeX4-ALL-9B 单一模型,即可支持代码补全和生成、代码解释器、联网搜索、工具调用、仓库级长代码问答及生成等功
7/5/2024 11:30:13 PM
清源

Mistral 推出 Agents API:为企业打造可协作、可记忆的 AI 代理

Mistral AI 推出全新 Agents API,旨在将语言模型扩展为面向企业实际应用的智能代理系统。 这一框架为基础语言模型增添了用于任务操作、上下文跟踪与代理编排的工具,使多个 AI 代理不仅能独立执行任务,还能协同合作、接入外部系统,构建完整的业务流程。 每个代理可通过连接器与 MCP(模型上下文协议)工具对接,支持运行 Python 脚本、网页搜索、生成图像(由 Black Forest Lab FLUX1.1[pro] Ultra 驱动),或从 Mistral Cloud 中提取文档。
5/28/2025 9:00:50 AM
AI在线

清华大学与面壁智能发布端侧GUI Agent:AgentCPM-GUI

近日,清华大学THUNLP实验室联合面壁智能推出了一款创新的端侧GUI Agent——**AgentCPM-GUI**,为移动设备的人机交互带来全新突破。 该智能体基于**MiniCPM-V**模型构建,总参数量仅**8B**,以手机屏幕图像为输入,支持中英文操作,可自动执行用户提出的任务,展现出强大的GUI元素定位能力。 AgentCPM-GUI覆盖了包括**高德地图**、**大众点评**、**B站**、**小红书**在内的**30多个主流中文APP**,能够精准识别和操作APP界面元素,满足多样化的用户需求。
5/14/2025 3:00:52 PM
AI在线
  • 1