AI在线 AI在线

谷歌加入CUA战场,发布Gemini 2.5 Computer Use:让AI直接操作浏览器

谷歌的 Computer Use 模型来了! 今天凌晨,谷歌 DeepMind 重磅发布了基于 Gemini 2.5 的计算机使用模型 Gemini 2.5 Computer Use。 考虑到前些天谷歌才刚刚发布了 Chrome DevTools (MCP),Gemini 2.5 Computer Use 的诞生倒不是特别让人惊讶。

谷歌的 Computer Use 模型来了!

今天凌晨,谷歌 DeepMind 重磅发布了基于 Gemini 2.5 的计算机使用模型 Gemini 2.5 Computer Use

考虑到前些天谷歌才刚刚发布了 Chrome DevTools (MCP),Gemini 2.5 Computer Use 的诞生倒不是特别让人惊讶。简单来说,与 OpenAI 的 Computer-Using Agent (CUA) 类似,DeepMind 的这个模型可让 AI 直接控制用户的浏览器 —— 在视觉理解和推理能力的基础上,该模型可以帮助用户在浏览器中执行点击、滚动和输入等操作。

图片

先来看两个官方演示。

提示词:From https://tinyurl.com/pet-care-signup , get all details for any pet with a California residency and add them as a guest in my spa CRM at  https://pet-luxe-spa.web.app/. Then, set up a follow up visit appointment with the specialist Anima Lavar for October 10th anytime after 8am. The reason for the visit is the same as their requested treatment.谷歌加入CUA战场,发布Gemini 2.5 Computer Use:让AI直接操作浏览器

提示词:My art club brainstormed tasks ahead of our fair. The board is chaotic and I need your help organizing the tasks into some categories I created. Go to sticky-note-jam.web.app  and ensure notes are clearly in the right sections. Drag them there if not.谷歌加入CUA战场,发布Gemini 2.5 Computer Use:让AI直接操作浏览器

可以看到,不管是收集网络信息与执行动作,还是整理杂乱笔记,Gemini 2.5 Computer Use 都非常准确地完成了任务,同时速度也相当快。

在相关基准上,Gemini 2.5 Computer Use 的性能表现也达到了 SOTA 水平:

图片

同时,其速度表现也优于其它几个相比较的模型:

图片

目前,开发者已可以通过 Google AI Studio 和 Vertex AI 的 Gemini API 获取这些能力。用户也可以在 Browserbase 托管的演示环境中试用(最多仅支持 5 分钟的流程,且不支持用户中途接管):https://gemini.browserbase.com/

机器之心使用该演示环境做了几次尝试。整体来看,Gemini 2.5 Computer Use 在完成简单任务时准确度较高,但稍微复杂一点的任务就容易失败。

比如在执行「在维基百科上找到 John Wick 页面」这样的简单任务时,该模型的表现非常成功。谷歌加入CUA战场,发布Gemini 2.5 Computer Use:让AI直接操作浏览器

但只要稍微复杂一点,该模型就失败了,比如「在维基百科上找到 John Wick 页面,并总结其信息,给出中文版。」另外,我们让其「打开诺贝尔奖官方网站,给出今年诺贝尔将宣布的时间表」的任务以及以下任务均未能成功完成。

提示词:浏览 jiqizhixin.com,找到近半年关于 Gemini 的报道,并整理成一份 Markdown 文件,并进行总结。谷歌加入CUA战场,发布Gemini 2.5 Computer Use:让AI直接操作浏览器

此外,DeepMind 也已经发布了 Gemini 2.5 Computer Use 系统卡:

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

图片

Gemini 2.5 Computer Use 的工作原理

该模型的核心能力是通过 Gemini API 中新增的 computer_use 工具实现的,开发者使用时需在一个循环流程(loop)中运行。

其输入应包括:

  • 用户请求;

  • 当前环境的截图;

  • 最近执行动作的历史记录。

另外,输入中还可以指定是否从默认支持的 UI 动作中排除特定功能以及添加自定义函数。

图片

                Gemini 2.5 Computer Use 模型工作流程

模型分析这些输入后,会生成响应,通常是一个代表 UI 动作的函数调用(如点击或输入)。在某些操作(如购买行为)中,模型还会请求用户确认。客户端随后会执行这些动作。

动作执行完成后,系统会将最新截图与当前 URL 作为函数响应返回给模型,重新启动循环。

这一迭代过程会持续进行,直到任务完成、出现错误,或因安全机制或用户决定而终止。

谷歌表示,当前 Gemini 2.5 Computer Use 模型主要针对网页浏览器优化,但在移动端 UI 控制方面也展现出强劲潜力。不过它暂未针对桌面操作系统级控制进行优化。

安全机制设计

谷歌还在博客中分享了他们对该模型的安全机制设计。

谷歌表示:「负责任地构建智能体是让 AI 造福所有人的唯一途径。能够直接操作电脑的 AI 智能体带来了特有的风险,包括用户恶意使用、模型意外行为、以及网页环境下的提示词注入与诈骗。因此,我们在设计中高度重视安全防护。」

在 Gemini 2.5 Computer Use 模型中,谷歌直接在训练阶段融入安全机制,以应对三类主要风险(详见系统卡)。

此外,谷歌还为开发者提供安全控制选项,防止模型自动执行潜在高风险或有害操作,例如:

  • 损害系统完整性;

  • 危及安全;

  • 绕过验证码;

  • 控制医疗设备。

谷歌实施的控制手段包括:

  • 逐步安全服务(Per-step Safety Service):在推理阶段,由独立安全服务评估每个模型拟执行的动作。

  • 系统指令(System Instructions):开发者可设定在特定高风险操作前,智能体必须拒绝或请求用户确认。

结语

谷歌 DeepMind 携 Gemini 2.5 Computer Use 高调入场,不仅在多个基准测试上展示了领先的性能,也让 AI 智能体领域的竞争正式进入了白热化阶段。

从 OpenAI 到 Anthropic,再到如今的谷歌,科技巨头们正竞相定义我们与计算机交互的未来。尽管当前模型在面对复杂现实任务时仍显稚嫩,但这恰恰是技术黎明前的真实写照。今天我们看到的不仅是一个新模型,更是一个清晰的信号:键盘和鼠标的主导地位正受到挑战,一个通过自然语言直接驱动数字世界的时代,正加速向我们驶来。

参考链接

https://blog.google/technology/google-deepmind/gemini-computer-use-model/

https://x.com/GoogleAIStudio/status/1975648565222691279

https://x.com/GoogleDeepMind/status/1975648789911224793

相关资讯

杨笛一团队:一个弹窗,就能把AI智能体操控电脑整懵了

弹窗攻击很有效,控制计算机的智能体根本顶不住。 前些天,Anthropic 为 Claude 带来一个极具变革意义的功能:Computer Use,也就是控制用户的计算机。 当时,Anthropic 在博客中写到:「在 OSWorld 这项测试模型使用计算机的能力的评估基准上,Claude 当前的准确度为 14.9%,虽然远远不及人类水平(通常为 70-75%),但却远高于排名第二的 AI 模型(7.8%)。
11/8/2024 11:02:00 AM
机器之心

大模型代肝,自动刷《崩铁》升级材料,Claude操纵计算机还能这么用!

大模型的执行力从哪里来? 上个月,Anthropic 推出了升级版的 Claude 3.5 Sonnet。 最新版本的 Claude 3.5 Sonnet 能够根据用户指令移动光标、点击相应位置以及通过虚拟键盘输入信息,模仿人类与计算机的交互方式。
11/20/2024 4:58:00 PM
机器之心

宣称其 CPU 设计能效高于现有 MCU 百倍,创企 Efficient Computer 已获 1600 万美元融资

综合外媒路透社、Tom's Hardware 和 SiliconANGLE 报道,初创企业 Efficient Computer 近日宣布其高能效 Fabric 架构 Monza 处理器测试芯片已回片,并获得 1600 万美元(IT之家备注:当前约 1.15 亿元人民币)种子轮融资。▲ Monza 测试芯片。图源 Efficient Computer 官方,下同Efficient Computer 宣称现有冯・诺依曼架构处理器“浪费了 99% 能源”:这些处理器首先对于性能优化设计,因此牺牲了能源效率。同时,目前的
3/11/2024 3:12:11 PM
溯波(实习)
  • 1