就在今年早些时候,谷歌曾承诺要通过Gemini API为开发者带来计算机使用能力。如今,这个承诺终于兑现了。谷歌DeepMind正式发布了Gemini 2.5 Computer Use模型,这是一个基于Gemini 2.5 Pro视觉理解和推理能力构建的专用模型,能够驱动AI代理与用户界面进行真正的交互。
图片
这个突破性的模型在多个网络和移动控制基准测试中超越了现有的领先替代方案,而且延迟更低。开发者现在可以通过Google AI Studio和Vertex AI中的Gemini API访问这些强大的功能。
为什么需要AI代理控制计算机?
虽然AI模型可以通过结构化API与软件进行交互,但许多数字任务仍然需要直接与图形用户界面交互。想象一下填写和提交表单这样的日常任务——这正是AI代理需要掌握的技能。
要完成这些任务,代理必须像人类一样浏览网页和应用程序:通过点击、输入和滚动。能够原生地填写表单、操作下拉菜单和过滤器等交互元素,以及在登录状态下操作,这是构建强大、通用AI代理的关键下一步。
技术原理:循环交互的智能设计
该模型的核心能力通过Gemini API中全新的computer_use工具公开,并应在循环中运行。工具的输入包括用户请求、环境截图以及最近操作的历史记录。输入还可以指定是否排除完整支持的UI操作列表中的某些功能,或指定要包含的其他自定义功能。
图片
模型分析这些输入后生成响应,通常是代表UI操作(如点击或输入)的函数调用。这个响应还可能包含对最终用户确认的请求,这对于某些操作(如进行购买)是必需的。客户端代码随后执行接收到的操作。
操作执行后,GUI的新截图和当前URL作为函数响应发送回Computer Use模型,重新启动循环。这个迭代过程持续进行,直到任务完成、发生错误或由于安全响应或用户决定而终止交互。
性能表现:碾压竞争对手
Gemini 2.5 Computer Use模型在多个网络和移动控制基准测试中展现出强劲性能。
图片
以下是一些关键数据:
• Online-Mind2Web基准 - 在浏览器控制任务中表现领先
• WebVoyager基准 - 在网页导航任务中超越其他模型
• AndroidWorld基准 - 在移动UI控制方面展现强大能力
该模型在Browserbase的Online-Mind2Web测试中提供了业界领先的浏览器控制质量,同时保持最低延迟,准确率超过70%,延迟约225秒。
安全优先:负责任的AI发展
谷歌深知,构建能够惠及所有人的AI代理,必须从一开始就承担责任。控制计算机的AI代理引入了独特的风险,包括用户的恶意使用、意外的模型行为,以及网络环境中的提示注入和诈骗。
为了应对这些风险,谷歌直接在模型中训练了安全功能,并为开发者提供了安全控制措施:
• 每步安全服务 - 在模型之外的推理时安全服务,在执行前评估模型提出的每个操作
• 系统指令 - 开发者可以进一步指定代理在采取特定类型的高风险操作之前拒绝或要求用户确认
早期用户反馈:实际应用效果显著
谷歌团队已经将该模型部署到生产环境中用于UI测试等用例,这可以显著加快软件开发速度。该模型的版本还为Project Mariner、Firebase测试代理以及搜索中AI模式的一些代理能力提供支持。
图片
"我们的许多工作流程需要与为人类设计的界面进行交互,速度尤其重要。Gemini 2.5 Computer Use远远领先于竞争对手,通常比我们考虑的下一个最佳解决方案快50%且更好。" - Poke.com团队
"我们的代理完全自主运行,执行不能容忍数据收集和解析错误的工作。Gemini 2.5 Computer Use在复杂情况下可靠解析上下文方面超越了其他模型,在我们最困难的评估中性能提升了高达18%。" - Autotab团队
如何开始使用
从今天开始,该模型在公开预览版中可用,可通过Google AI Studio和Vertex AI上的Gemini API访问。
• 立即试用 - 在Browserbase托管的演示环境中体验
• 开始构建 - 查阅参考文档,学习如何使用Playwright在本地或使用Browserbase在云VM中构建自己的代理循环
• 加入社区 - 在开发者论坛中分享反馈并帮助指导产品路线图
Gemini 2.5 Computer Use的发布标志着AI代理技术的一个重要里程碑。它不仅展示了AI在理解和操作复杂用户界面方面的突破性进展,也为未来更智能、更实用的AI助手铺平了道路。随着这项技术的不断发展和完善,我们可以期待看到更多创新的应用场景和更高效的人机协作模式。