AI Agent 体如何改变我们与网页的互动方式

AI 智能体（像 OpenAI Operator 这样的）能帮你自动完成网上找产品、管理浏览器标签等任务，简直是解放双手！但要让这些智能体真正派上用场，挑战可不小。这篇文章会聊聊 AI 智能体在网页互动中的现状、痛点，以及一个叫 Agentic Web Interfaces (AWIs) 的新解决方案。

AI 智能体（像 OpenAI Operator 这样的）能帮你自动完成网上找产品、管理浏览器标签等任务，简直是解放双手！但要让这些智能体真正派上用场，挑战可不小。这篇文章会聊聊 AI 智能体在网页互动中的现状、痛点，以及一个叫 Agentic Web Interfaces (AWIs) 的新解决方案。

图片

引言

AI 智能体想在网页上干点有意义的事儿，远比处理简单搜索复杂得多。

虽然 MCP (Model Context Protocol) 网页服务器能帮忙搞定搜索操作，但更大的问题是，网页是为人类设计的，复杂的界面、动态元素、交互组件，AI 智能体想顺畅“读懂”可不容易。

光靠截图或试图解析网页结构，是一种很粗糙的办法，缺乏语义理解，自动化效果大打折扣。根本问题在于，网页内容是为视觉浏览设计的，不是给程序直接访问的，动态内容、复杂布局、交互组件都让解析变得困难。

MCP 或许能帮上忙，通过提供更结构化的接口，标准化 AI 智能体访问和操作网页资源的方式，摆脱对视觉解读的依赖。但 MCP 生态还在发展，能否应对复杂的网页导航还得打个问号。

图片

理想的解决方案是网页标准能暴露语义结构和功能，给 AI 智能体提供友好格式。但在这种标准普及前，AI 智能体还得在人类导向的网页设计和程序化访问需求的差距中挣扎。

回到研究

最近一项研究指出，当前基于浏览器和 API 增强的 AI 智能体，因为依赖人类设计的网页界面，面临不少挑战。

网页浏览器是为人类用户和开发者设计的，不是给 AI 智能体用的。

虽然研究提出了有价值的思考，但缺乏具体细节，没能完全勾勒出新的交互范式，相比之下，像 arXiv:2505.10609 和 arXiv:2505.22368 这样的论文提供了更可操作的研究。

不过，研究探索了当前网页 AI 智能体的现状、局限性，并提出了一个解决方案：Agentic Web Interfaces (AWIs)，还是很值得一聊。

网页 AI 智能体现在咋工作

网页 AI 智能体通过模仿人类与网站互动的方式工作。它们接收自然语言任务（比如“找一双 10 号白色鞋子”），用像 Playwright 这样的工具点击或输入，靠奖励函数评估任务完成情况。

主要有两种类型：

• 基于浏览器的 AI 智能体：只跟网站 UI 打交道，通过截图、Document Object Model (DOM) 树或可访问性树来理解网页。
• API 增强的混合智能体：结合 UI 交互和网页 API 调用来提高效率，比如直接拉取数据。

这两种方式都有问题，因为人类设计的界面——复杂 UI 或有限的 API——压根儿没为 AI 智能体优化，导致效率低、风险高。

不过，让 AI 智能体像人类一样“用”现有网页，确实有种特别的吸引力。

当前方法的挑战

基于浏览器的 AI 智能体

基于浏览器的 AI 智能体靠截图或 DOM 树，但各有毛病：

• 截图会漏掉隐藏元素（比如下拉菜单），DOM 树解析又费计算资源。
• AI 智能体反复渲染网页会给服务器添负担，触发像 CAPTCHA 这样的防御机制，影响人类用户体验。
• 更糟的是，它们能访问浏览器数据（比如密码），带来隐私风险，比如未经授权的购买。

API 增强的混合 AI 智能体

混合智能体用 API 绕过一些 UI 限制，但 API 功能有限，像排序产品这种任务得开发者费老大劲。

频繁调用 API 还可能触发速率限制，逼得智能体只能靠低效的 UI 交互。

安全也是个问题，AI 智能体用内部 API 可能绕过像双重验证这样的防护，造成未经授权的访问和高额使用成本。

研究认为，强迫 AI 智能体适应人类界面是个错误方向，提出了 AWIs——专为 AI 智能体设计的接口。

如何打造一个 OpenAI 的计算机使用智能体（CUA 模型）

想建一个能帮你完成任务的计算机使用智能体？用 OpenAI 的 CUA 模型 来创建一个 AI 智能体……（详情见 cobusgreyling.medium.com）

新范式？Agentic Web Interfaces (AWIs)

AWIs 旨在通过创建一个标准化的、为 AI 智能体优化的交互层来解决问题。研究提出了几个指导原则：

• AWIs 得标准化、以人为本、安全、高效，还得对开发者友好。

研究还给出了具体建议：

统一的高级动作

AWIs 可以用像“goto”这样的动作，把多步操作（比如输入 URL 并按回车）合为一步，保持网站间一致性。

UI 兼容性

像 Playwright 这样的双向工具可以同步 AWI 和 UI 状态，确保与人类浏览器兼容。

访问控制

通过访问控制列表和生物识别技术，限制 AI 智能体访问敏感数据，提升安全性。

渐进式信息传输

只发送必要数据（比如压缩后的图片），能减少带宽和成本。

任务队列

限制并发智能体数量，分散使用，能避免服务器过载，也惠及人类用户。

研究的价值与不足

研究提出 AWIs 的想法很吸引人，点出了人类界面与 AI 能力不匹配的问题。

它关注了计算效率低和安全风险等关键问题，提出了一种前瞻性解决方案。

但是……它的建议缺乏实际落地的深度。

比如，没说清楚怎么在不同网站间标准化 AWIs，也没量化效率提升。相比之下，像 arXiv:2505.10609 和 arXiv:2505.22368 这样的研究提供了详细的网页智能体设计框架，包括具体算法和评估指标，对开发者更实用。

展望未来

网页 AI 智能体潜力巨大，但依赖人类设计的界面带来了效率和风险问题。

AWIs 可能会彻底改变 AI 智能体导航网页的方式，但研究的高层次想法还需更具体的开发。

AI Agent 体如何改变我们与网页的互动方式

引言