AI在线 AI在线

阿里通义开源网络智能体 WebSailor,登顶开源网络智能体榜单

感谢AI在线网友 GreatMOLA 的线索投递! AI在线 7 月 7 日消息,今日阿里云宣布,通义正式开源网络智能体 WebSailor,该智能体具备强大的推理和检索能力,发布后在智能体评测集 BrowseComp 上登顶开源网络智能体榜单。 AI在线注意到,目前 WebSailor 的构建方案及部分数据集已在 Github 开源。
感谢AI在线网友 GreatMOLA 的线索投递!

AI在线 7 月 7 日消息,今日阿里云宣布,通义正式开源网络智能体 WebSailor,该智能体具备强大的推理和检索能力,发布后在智能体评测集 BrowseComp 上登顶开源网络智能体榜单。AI在线注意到,目前 WebSailor 的构建方案及部分数据集已在 Github 开源。

阿里通义开源网络智能体 WebSailor,登顶开源网络智能体榜单

据阿里云介绍,WebSailor 网络智能体可以应用复杂场景下的检索任务,对于模糊问题可迅速在不同的网页中进行快速检索并推理验证,从而在海量信息中通过严密的多步推理和交叉验证最终得出检索答案。

同时,针对该智能体的训练,通义实验室团队采用了整套创新的 post-training 方法,大幅提升了该开源模型在复杂网页推理任务上的表现,在高难度智能体评测集 BrowseComp 上,WebSailor 的成绩超越了 DeepSeek R1、Grok-3 等模型和智能体,一举登顶开源网络智能体榜单。

  • 开源地址:

https://github.com/Alibaba-NLP/WebAgent

为了验证 WebSailor 的实验效果,通义实验室在多个 benchmark 评测集上进行实测。

BrowseComp 是 Open AI 开源的浏览器检索效果评测集,旨在评测大模型和智能体的检索性能,发布数月以来,该评测集包含了 1266 个高难度问题,是目前难度最高的评测集之一,业界尚无开源系统取得接近闭源模型的成绩。

阿里通义开源网络智能体 WebSailor,登顶开源网络智能体榜单

英文版和中文版 BrowseComp 评测集的实测结果显示,WebSailor 跨越了开源和闭源系统之间的鸿沟,WebSailor-32B、WebSailor-72B 不仅在开源模型和 Agent 阵营里实现了断层领先,甚至超越了 DeepSeek R1、Grok-3 等闭源模型,仅次于闭源的 OpenAI DeepResearch。

阿里通义开源网络智能体 WebSailor,登顶开源网络智能体榜单

尽管 WebSailor 仅基于高难度数据训练,但在聚焦普通任务 SimpleQA 的数据集上,WebSailor 的表现也超越了其它方法,展现出极强的兼容性和有效性,验证了 WebSailor 方法的泛化能力。

阿里云称,WebSailor 提供了一个通用的 workflow,可借鉴到其他领域的问题中。它强调的“高难度任务合成 + 小规模冷启动 + 高效 RL 优化”的组合拳策略,具有很强的普适性。未来,开源社区可以参考 WebSailor 的思路,去攻克更多类似“超越人类能力”的任务 —— 比如开放领域的复杂推理问答、学术知识发现,甚至跨模态的信息整合等。

相关资讯

刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3

在互联网信息检索任务中,即使是很强的LLM,有时也会陷入“信息迷雾”之中:当问题简单、路径明确时,模型往往能利用记忆或一两次搜索就找到答案;但面对高度不确定、线索模糊的问题,模型就很难做对。 举个例子,我们平常问一个直白的问题(比如“某城市的人口是多少”),搜索引擎一查即可。 但如果问题被设计得非常复杂,比如“这首与南美某首都密切相关的乐曲,其歌词作者在21世纪初获颁当地荣誉称号,其旋律创作者曾就读于哥伦比亚西部的一所著名艺术学院。
7/7/2025 4:25:40 PM
梦晨

阿里云拿下高奢品牌 LV 母公司五年长期合约,整合通义千问 AI 技术

感谢LV 高奢品牌母公司酩悦・轩尼诗-路易・威登集团(LVMH)宣布将和阿里巴巴进一步深化合作,在延长五年合作伙伴关系的基础上,通过阿里云及通义模型来优化高端零售体验。LVMH 集团自 2019 年起开始采用阿里云支持业务发展,目前正在利用阿里云的一站式数据管理工具 Dataphin 支持“LVMH ATOM”项目,为中国客户提供个性化服务。此外,LVMH 集团和阿里云还在云计算和大数据领域展开了合作。此次合作关系延长是在天猫与蒂芙尼和尚美巴黎和奢侈品零售业务整合之后展开。IT之家从公告获悉,阿里巴巴将阿里云的生成
5/22/2024 6:40:58 PM
汪淼

AI月活企业已超170万家!钉钉正式上线AI助理市场

4月18日,钉钉正式上线AI助理市场(AI Agent Store),首批将推出超过200个AI助理,覆盖企业服务、行业应用、效率工具、财税法务、教育学习、生活娱乐等类目,用友、携程商旅、墨见Molook等各领域SaaS企业已上架AI助理,加入钉钉AI生态。现在,用户在钉钉搜索“AI助理市场”,即可选择启用各AI助理。同时,钉钉对外发布了一组数据:自2023年4月18日宣布接入通义千问大模型,开启全面智能化战略一年后,钉钉AI助理、文档AI、宜搭AI、智能OA等产品正在深入千行百业。截至2024年3月底,钉钉AI已
4/18/2024 11:24:00 AM
新闻助手
  • 1