AI在线 AI在线

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

当 LLM Agent 踏入真实的在线网络世界时,它们的表现能否如预期般游刃有余?

潘奕琛:浙江大学硕士一年级研究生。孔德涵:跨越星空科技模型算法负责人。周思达:南昌大学 2024 届毕业生,将于西安电子科技大学攻读硕士。崔成:浙江中医药大学 2024 届毕业生,将于苏州大学攻读硕士。

潘奕琛、周思达、崔成以跨越星空科技算法实习生的身份共同完成了本论文的研究工作。

在当今科技迅速发展的时代,大型语言模型(Large Language Model,LLM)正以前所未有的速度改变着我们与数字世界的互动方式。基于 LLM 的智能代理(LLM Agent),从简单的信息搜索到复杂的网页操作,它们正在逐步融入我们的生活。然而,一个关键问题仍然悬而未决:当这些 LLM Agent 踏入真实的在线网络世界时,它们的表现能否如预期般游刃有余?

现有的评测方法大多停留在静态数据集或模拟网站的层面。这些方法有其价值,但局限性显而易见:静态数据集难以捕捉网页环境的动态变化,如界面更新和内容迭代;而模拟网站则缺乏真实世界的复杂性,未能充分考虑跨站操作,例如使用搜索引擎等操作,这些因素在真实环境中是不可或缺的。

为破解这一难题,一篇题为《WebCanvas: Benchmarking Web Agents

in Online Environments》的论文提出了一种创新的在线评测框架 ——WebCanvas,旨在为 Agent 在真实网络世界中的表现提供一个全面的评估方法。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

论文链接:https://arxiv.org/pdf/2406.12373

WebCanvas 平台链接:https://imean.ai/web-canvas

项目代码链接:https://github.com/iMeanAI/WebCanvas

数据集链接:https://huggingface.co/datasets/iMeanAI/Mind2Web-Live

WebCanvas 的创新点之一在于提出了 “关键节点” 的概念。这一概念不仅聚焦于任务的最终完成情况,还能够深入至任务执行过程的细节,确保评估的精准度。通过识别并检测任务流程中的关键节点 —— 无论是到达特定网页,还是执行特定操作(如点击特定的按钮),WebCanvas 为在线评估 Agent 提供了一个新的视角。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

WebCanvas 框架图。左侧展示的是任务的标注过程,右侧展示的是任务的评估过程。WebCanvas 考虑到了在线网络交互中任务路径的非唯一性,“奖杯” 代表成功到达每个关键节点后获得的步骤分数。

基于 WebCanvas 框架,作者构建了 Mind2Web-Live 数据集,该数据集包含从 Mind2Web 中随机挑选出的 542 个任务。本文作者还为数据集中的每个任务都标注了关键节点。通过一系列实验,我们发现,当 Agent 配备 Memory 模块,辅以 ReAct 推理框架,并搭载 GPT-4-turbo 模型后,其任务成功率提升至 23.1%。我们深信,随着技术的不断演进,Web Agent 的潜力依旧无限,这个数字将很快会被突破。

关键节点

“关键节点” 的概念是 WebCanvas 的核心思想之一。关键节点指的是完成特定网络任务过程中不可或缺的步骤,也就是说,无论完成任务的路径如何,这些步骤都是不可或缺的。这些步骤涵盖了访问特定网页以及在页面上执行特定操作,如填写表单或点击按钮。

以 WebCanvas 框架图绿色部分为例,用户需要在烂番茄网站上寻找评分最高的即将上映的冒险电影。他可以通过多种途径达到目的,比如从烂番茄的首页开始探索,或者直接通过搜索引擎定位置 “即将上映的电影” 页面。在筛选影片的过程中,用户可能先选择 “冒险” 类型,再根据受欢迎程度排序,或者反之亦然。虽然存在多条实现目标的路径,但进入特定页面并进行筛选是完成任务不可或缺的步骤。因此,这三个操作被定义为该任务的关键节点。

评估指标

WebCanvas 的评估体系分为两大部分:步骤得分和任务得分,两者共同构评估 WebAgent 综合能力。

步骤得分:衡量 Agent 在关键节点上的表现,每个关键节点都与一个评估函数相关联,通过三种评估目标(URL、元素路径、元素值)和三种匹配函数(精确、包含、语义)来实现。每到达一个关键节点并通过评估函数,Agent 就能获得相应的分数。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

评估函数总览,其中 E 代表网页元素 Element

任务得分:分为任务完成得分和效率得分。任务完成得分反映 Agent 是否成功拿到了此任务所有的步骤得分。而效率得分则考量了任务执行的资源利用率,计算方法为每个步骤得分所需的平均步骤数。

Mind2Web-Live 数据集

作者从 Mind2Web 训练集中随机抽取了 601 个与时间无关的任务,以及测试集 Cross-task 子集中的 179 个同样与时间无关的任务,然后将这些任务在真实在线环境中进行标注。最终,作者构建了由 542 个任务组成的 Mind2Web-Live 数据集, 其中包含了 438 个训练样本和 104 个用于测试的样本。下图直观地展示了标注结果和评估函数的分布。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

数据标注工具

数据标注过程中,作者使用了跨越星空科技开发的 iMean Builder 浏览器插件。该插件能够记录用户浏览器交互行为,包括但不限于点击、文本输入、悬浮、拖拽等动作,同时记录操作的具体类型、执行参数、目标元素的 Selector 路径,以及元素内容和页面坐标位置。此外,iMean Builder 还为每一步操作生成网页截图,为验证和维护工作流程提供了直观的展示。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

示例:使用 iMean Builder 插件注释两个不同的任务。(A) 在 Yelp 上查找加州提供免费 Wi-Fi 的豪华轿车停车场,(B) 在 Steam 上查找 Dota 2 游戏并将所有 DLC 添加到购物车中

数据维护

网络环境瞬息万变,网站内容的更新、用户界面的调整乃至站点的关闭都是不可避免的常态。这些变化可能导致先前定义的任务或关键节点失去时效性,从而影响评测的有效性和公平性。

为此,作者设计了一套数据维护方案,旨在确保评测集的持续相关性和准确性。在数据收集阶段,除了标注关键节点外,iMean Builder 插件还能够详细记录每一步工作流执行的信息,包括动作类型、Selector 路径、元素值以及坐标位置等。后续使用 iMean Replay SDK 的元素匹配策略就能重现工作流动作,并及时发现并报告工作流或评估函数中的任何无效情况。

通过此方案,我们有效解决了流程失效带来的挑战,确保了评测数据集能够适应网络世界的不断演变,为自动化评测 Agent 的能力提供了坚实的基础。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

数据管理平台

在 WebCanvas 网站上,用户可以清晰地浏览所有已录制的任务流程及其关键节点,也能够迅速向平台管理员反馈失效的流程,确保数据的时效性和准确性。

同时,作者鼓励社区成员积极参与,共同构建一个良好的生态系统。无论是维护现有数据的完整性,还是开发更先进的 Agent 进行测试,甚至是创造全新的数据集,WebCanvas 都欢迎各种形式的贡献。这不仅促进了数据质量的提升,还鼓励技术创新,能够形成良性循环推动整个领域向前发展。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

WebCanvas 网站首页

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

Mind2Web-Live 数据集的可视化展示

基础 Agent 框架

作者构建了一个全面的 Agent 框架,旨在优化 Agent 在在线网络环境下的任务执行效率。该框架主要由四个关键组件组成:规划(Planning)、观察(Observation)、记忆(Memory)以及奖励(Reward)模块。

规划(Planning):基于 Accessibility Tree 的输入,Planning 模块运用 ReAct 推理框架进行逻辑推断,生成具体的操作指令。此模块的核心功能在于根据当前状态和任务目标,给出行动路径。

观察(Observation):Agent 通过解析浏览器提供的 HTML 源代码,将其转换成 Accessibility Tree 结构。这一过程确保了 Agent 能够以标准化格式接收网页信息,便于后续分析和决策。

记忆(Memory):Memory 模块负责存储 Agent 在任务执行过程中的历史数据,包括但不限于 Agent 的思考过程、过往的决策等。

奖励(Reward):Reward 模块能对 Agent 的行为给予评价,包括对决策质量的反馈以及给出任务完成信号。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

基础 Agent 框架示意图

主要实验

作者使用基础 Agent 框架并接入不同 LLM 进行评估(不含 Reward 模块)。实验结果如下图所示,其中 Completion Rate 指的是关键节点的达成率,Task Success Rate 指的是任务成功率。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

除此之外,作者还探索了 Reward 模块对 Agent 能力的影响,其中 (+) 号代表 Reward 信息中包含人类标注数据以及关键节点信息供 Agent 参考,Human Alignment 分数代表 Agent 与人类的对齐程度。初步实验的结果表明,在线网络环境中,Agent 并不能够通过 Self Reward 模块改善能力,但是整合了原始标注数据的 Reward 模块能够增强 Agent 的能力。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

实验分析

在附录中,作者对实验结果进行了分析,下图是任务复杂度与任务难度之间的关系,橙色线条描绘了关键节点达成率随任务复杂度增加的变化轨迹,而蓝色线条则反映了任务成功率随任务复杂度的变化轨迹。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

任务复杂度与任务难度之间的关系。"num of steps" 指的是标注数据中动作序列的长度,与关键节点的数量一起作为任务复杂度的参考。

下表是实验结果与地区、设备、系统之间的关系。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

总结

在推动 LLM 和 Agent 技术发展的征途上,构建一套适应真实网络环境的评测体系至关重要。本文聚焦于在瞬息万变的互联网世界中有效地评价 Agent 的表现。我们直面挑战,通过在开放的环境中界定关键节点和对应的评测函数达成了这一目标,并开发数据维护系统减小了后续维护成本。

经过不懈努力,我们已迈出了实质性的步伐,并向着建立稳健且精准的在线评测系统前进。然而,在动态的网络空间中进行评测并非易事,它引入了一系列在封闭、离线场景下未曾遭遇的复杂问题。在评测 Agent 的过程中,我们遇到了诸如网络连接不稳定、网站访问限制,以及评测函数的局限性等难题。这些问题凸显出在复杂的真实环境中,对 Agent 进行评测所面临的艰巨任务,要求我们不断精进调整 Agent 的推理和评测框架。

我们呼吁整个科研社区共同协作,以应对未知挑战,推动评测技术的革新与完善。我们坚信,只有通过持续的研究与实践,才能逐步克服这些障碍。我们期待着与同行们携手并进,共创 LLM Agent 的新纪元。

相关资讯

微软工程师用PyTorch实现图注意力网络,可视化效果惊艳

近日,一个关于图注意力网络可视化的项目吸引了大批研究人员的兴趣,上线仅仅一天,收获 200+ 星。该项目是关于用 PyTorch 实现的图注意力网络(GAT),包括易于理解的可视化。
2/2/2021 2:34:00 PM
机器之心

MaxCompute执行引擎核心技术DAG揭秘

作为业界少有的EB级别数据分布式平台,MaxCompute系统每天支撑上千万个分布式作业的运行。在这个量级的作业数目上,毫无疑问平台需要支撑的作业特点也多种多样:既有在"阿里体量"的大数据生态中独有的包含数十万计算节点的超大型作业,也有中小规模的分布式作业。同时不同用户对于不同规模/特点的作业,在运行时间,资源使用效率,数据吞吐率等方面,也有着不同的期待。Fig.1 MaxCompute线上数据分析基于作业的不同规模,当前MaxCompute平台提供了两种不同的运行模式,下表对于这两种模式做了总结对比:Fig.2
8/25/2021 2:46:00 PM
阿里云大数据AI技术

可微分骨架树:基于梯度的分子优化算法

这周我们简单介绍一个高效分子优化的方法。该工作由UIUC的Jimeng Sun组合MIT的Connor Coley组合作完成,对应的文章题目是Differentiable Scaffolding Tree for Molecule Optimization[1],被2022年ICLR接受,主要的代码和数据发布在。内容:思路:基于梯度的分子优化分子的可微分骨架树类梯度上升的优化算法优化效果测试由可微性得到的可解释性思路:基于梯度的分子优化在药物发现中,分子优化,即找到具有理想性质的分子结构,是核心的一步。由于化学结构
2/21/2022 11:58:00 AM
新闻助手

图神经网络的困境,用微分几何和代数拓扑解决

微分几何和代数拓扑在主流机器学习中并不常见。在本系列文章中,作者展示了如何使用这些领域的工具重新解释图神经网络并解决一些常见困境。
3/27/2022 12:46:00 PM
机器之心

火山引擎弹性容器实例:从节点中心转型 Serverless 化架构的利器

在 Kubernetes 和容器化技术愈发成熟的今日,越来越多企业开始将业务应用迁移到云上,采用云原生架构支持业务高速稳定地发展。而随着云计算向开发流程纵深发展,Serverless 架构的成熟让云原生技术进入全新阶段——Serverless 把公有云弹性伸缩、免运维、快速接入等特性发挥到了极致,极大降低了用户的使用成本,让用户和企业只需要专注于其业务逻辑,实现真正意义上的敏捷开发。为了更好帮助企业业务应用真正践行 Serverless 化的新型云原生思想,火山引擎云原生团队正在从理念、系统设计、架构设计等多方面推
2/29/2024 9:21:00 AM
新闻助手

超详细的 Stable Diffusion ComfyUI 基础教程(五):局部重绘+智能扩图

前言:我们上一节讲了图生图,也提到了“遮罩”这个节点; 我们想一下在使用 Web UI 进行局部重绘的时候都用到了那些功能?上期回顾:内容补充: 在开始之前我先给大家补充个知识点,怎么在图生图的时候批量出图“右键-新建节点- Latent-批处理-复制 Latent 批次”,把“复制 Latent 批次”节点串联在“VAE 编码”和“K 采样器”之间,然后设置次数就可以了。一、创建流程 ①我们打开上节课“图生图”的流程图,我们可以看到“加载图像”节点是没有地方连接的,点住“遮罩”往外拉,松开然后选择“VAE 内补编
12/29/2023 12:03:45 AM
搞设计的花生仁

3FS系列(一):存储新纪元的开篇——3FS编译调优与部署的工程实践

系列文章目录3FS系列(一):存储新纪元的开篇——3FS编译调优与部署的工程实践引言2月24日,重磅存储系统3FS(Fire-Flyer File System) 在 DeepSeek 轰轰烈烈的开源周压轴登场,补齐了计算、网络以外的另一块拼图——存储。 区别于过往巧妙算法的开源库,3FS 是完整的涉及多种节点、结合多种外部节点的高速并行文件系统,其代码结构清晰、模块间解耦程度高,充分展现了 DeepSeek 工程师对复杂工程的驾驭能力。 作为 DeepSeek 开源生态的一部分,3FS 于 2025 年 2 月 27 日在 GitHub 上正式开源,一经发布热度值瞬间爆表,引发业界关注。
3/14/2025 5:32:00 PM
九章云极DataCanvas

ComfyUI品牌焕新升级,推出原生API节点

ComfyUI于2025年5月6日宣布完成品牌升级,同步推出原生API节点功能。 这一更新不仅为ComfyUI带来了全新的视觉标识,还通过集成11个主流在线视觉AI模型、65个新节点,显著提升了其图像和视频生成能力。 据官方介绍,用户无需自行申请API密钥,仅需在ComfyUI平台登录即可无缝调用包括Flux.1、Veo2、GPT-Image-1等在内的先进模型。
5/7/2025 12:01:06 PM
AI在线

李开复 AI 创业公司零一万物发布下首个智能体“万仔”

零一万物在北京举行了盛大的产品发布会,推出了其全新版本的万智企业大模型一站式平台(万智平台)2.0,并正式发布了代号为 “万仔” 的企业级智能体(AI Agent)。 这一创新产品以 “超级员工” 为核心定位,具备深度思考和任务规划能力,能够访问手机和网络端,连接各种企业服务,帮助企业根据自身业务需求定制专属智能体,从而解决实际问题。 万智企业级智能体通过自主研发的强化学习和全栈研发技术,提高了任务规划能力。
7/23/2025 9:22:36 AM
AI在线

AI Agents的“超级大脑”来了 阿里云正式发布无影Agentbay

7月28日,上海世界人工智能大会WAIC上,阿里云正式推出了首款专为AI Agents打造的"超级大脑"——无影AgentBay。 这台云端电脑不仅能执行代码运行、网页浏览、数据分析、程序开发、表格制作等基础任务,还具备视觉理解、自然语言控制、任务解析等多项AI技能,可在Windows、Linux、Android等多个系统间无缝切换,随时调用云上的算力、存储和工具链资源,仅需三行代码即可接入,做到"拎包入住",让AI开发者们彻底告别繁琐的安装和配置。 作为2025年最受瞩目的技术之一,全球AI Agents市场规模已突破50亿美元,年增长率高达40%。
7/28/2025 10:59:00 PM
机器之心

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

今天,一年一度的高考正式拉开帷幕。
6/7/2023 2:48:00 PM
机器之心

最新中文大模型测评:百川智能 Baichuan 3 国内第一

感谢IT之家从百川大模型官方公众号获悉,今日国内大模型评测机构 SuperCLUE 发布了《中文大模型基准测评 2024 年度 4 月报告》,报告选取国内外具有代表性的 32 个大模型 4 月份的版本,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。报告显示,百川智能的 Baichuan 3 在国内大模型中排名第一,智谱 GLM-4、通义千问 2.1、文心一言 4.0、Moonshot (Kimi) 等大模型位列其后。从全球范围来看,国外同行的 GPT-4、Claude3 得分更胜一筹。SuperCLU
4/30/2024 7:43:20 PM
远洋

国内首个网络安全大模型评测平台SecBench发布

2024年1月19日,业界首个网络安全大模型评测平台SecBench正式发布,该平台由腾讯朱雀实验室和腾讯安全科恩实验室,联合腾讯混元大模型、清华大学江勇教授/夏树涛教授团队、香港理工大学罗夏朴教授研究团队、上海人工智能实验室OpenCompass团队共同建设,主要解决开源大模型在网络安全应用中安全能力的评估难题,旨在为大模型在安全领域的落地应用选择基座模型提供参考,加速大模型落地进程。同时,通过建设安全大模型评测基准,为安全大模型研发提供公平、公正、客观、全面的评测能力,推动安全大模型建设。行业首发,弥补大模型在
1/19/2024 2:11:00 PM
新闻助手

豆包大模型披露评测成绩,较上一代“云雀”提升19%

近日,豆包大模型在火山引擎原动力大会上正式发布。以超低价格掀起大模型降价潮的同时,豆包的模型能力也引发行业关注。在火山引擎的一份产品资料中,豆包模型团队公布了一期内部测试结果:在 MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k 的总分为76.8分,相比上一代模型云雀Skylark2 的64.5分提升了19%,也优于同期测试的其他国产模型。此次评测在今年5月完成,主要包括豆包通用模型-pro、云雀Skylark2 在内的九款国产大语言模型。除了云雀Skyla
5/24/2024 3:56:00 PM
新闻助手

智源更新大模型排行榜:豆包大模型“客观评测”排名国产第一

6月中旬,智源研究院旗下的 FlagEval 大模型评测平台发布最新榜单:在有标准答案的“客观评测”中,GPT-4 以76.11分在闭源大模型中排名第一;Doubao-Pro(豆包大模型)以75.96分排名第二,同时也是得分最高的国产大模型;其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在开放问答等“主观评测”中,Doubao-Pro 同样排名第二,得分超过 GPT-4o 和 GPT-4。图:豆包大模型在 FlagEval 客观评测中获综合评分第二(2024年6月)FlagEval 大
6/19/2024 9:30:00 AM
新闻助手

贾佳亚团队联手剑桥清华等共推评测新范式 一秒侦破大模型“高分低能”

颠覆过往大模型评测标准,最新、最全、最权威的测评数据集MR-Ben来了!这是继今年4月发布堪称GPT-4 DALL- E-3的王炸产品超强视觉语言模型Mini-Gemini后,港中文贾佳亚团队再次提出的极具代表性的作品。在MR-Ben的“监督”下,大模型不仅要像学生那样会答题,还要像老师那样会阅卷,真实的推理能力无所遁形。MR-Ben细致地评测了不少国内外一线的开源和闭源模型,如GPT4-Turbo、Cluade3.5-Sonnet、Mistral-Large、Zhipu-GLM4、Moonshot-v1、Yi
7/18/2024 3:38:00 PM
新闻助手

中国移动、电子标准院及 16 家重点央企发布《通用大模型评测标准》

感谢AI在线从中国移动官方获悉,在今天召开的 2024 中国移动全球合作伙伴大会期间,中国移动联合电子标准院及 16 家重点央企共同开展大模型评测体系建设工作,并发布《通用大模型评测标准》。据介绍,该标准是大模型评测体系建设的重要成果,为产业界遴选优质大模型提供重要参考依据。第一阶段将围绕通用领域和 4 个重点行业领域,从评测标准制定、评测基地建设、评测试点应用等方面开展工作。
10/12/2024 2:50:53 PM
清源

CAIL 2024 | 中国法律智能技术评测正式开启,诚邀您参与!

评测简介近年来,随着以裁判文书为代表的司法大数据不断公开,以及自然语言处理技术的不断突破,如何将人工智能技术应用在司法领域,辅助司法工作者提升案件处理的效率和公正性,逐渐成为法律智能研究的热点。中国法律智能技术评测CAIL(Challenge of AI in Law)旨在为研究者提供交叉学科的学术交流平台,推动自然语言处理、智能信息检索等人工智能技术在法律领域的应用,共同促进中国法律智能技术的创新发展,为科技赋能社会治理作出贡献。为了促进智能技术赋能司法,实现更高水平的数字正义,在最高人民法院和中国中文信息学会的指导下,从2018年起,CAIL已连续举办了六届中国法律智能技术评测,先后吸引了来自海内外高校、企业和组织的近5000支队伍参赛,成为中国法律智能技术评测的重要平台。
10/14/2024 2:10:00 PM
新闻助手
  • 1