
大家好,我是肆〇柒。本文要和大家分享的是来自阿里通义实验室(Tongyi Lab, Alibaba Group)的一项重磅研究成果——WebSailor-V2。这项工作不仅刷新了开源Web智能体的性能上限,更关键的是,它揭示了一个被长期忽视的真相:决定Agent能力边界的,或许不是模型参数,而是数据质量与训练生态系统的构建方式。
本文是通义 Deepresearch 发布的系列研究之一。
在人工智能领域,自主AI智能体(Agent)被视为实现通用人工智能(AGI)的关键里程碑,而"深度研究"(Deep Research)能力正成为衡量智能体水平的核心标准。然而,尽管开源社区在Web智能体领域取得了显著进展,与OpenAI DeepResearch等闭源系统之间仍存在难以逾越的性能鸿沟,这严重阻碍了强大研究能力的民主化进程。
WebSailor-V2的开源,为这一困境提供了突破性解决方案。作为阿里通义实验室推出的开源Web智能体,它并非依赖更庞大的模型规模或更复杂的算法,而是通过精心设计的"双引擎"策略——高质量数据构建与稳定训练环境设计,成功实现了对闭源系统的性能超越。其30B参数的Qwen3-30B-A3B模型在关键基准测试中不仅大幅领先所有开源智能体,甚至超越了671B参数的DeepSeek-V3.1系统:在BrowseComp-EN上取得35.3分,BrowseComp-ZH上44.1分,HLE上30.6分,显著优于DeepSeek-V3.1(BrowseComp-EN 30.0分,HLE 29.8分)。这一"以小博大"的突破性结果,为开源社区提供了强有力的性能标杆。

BrowseComp-EN与xBench-DeepSearch基准测试性能对比
本文将与大家一起探索WebSailor-V2如何通过系统工程思维,构建高性能Agent训练生态系统。其核心在于:高质量数据和稳定训练环境比特定算法更为关键。这一理念贯穿于WebSailor-V2的整个开发过程,从数据构建到训练流程,最终实现了开源智能体对闭源系统的性能超越。
SailorFog-QA-V2——构建高质量Agent训练数据的科学
高质量数据是构建强大Web智能体的基石。WebSailor-V2的创新首先体现在其数据构建方法上,通过SailorFog-QA-V2数据集,解决了现有方法在数据多样性与不确定性表达上的根本局限。
从树状到网状:知识图谱的拓扑
现有Web智能体数据构建方法通常采用"由易到难"的迭代扩展策略,从简单"种子"问题开始,通过外部工具逐步扩展图谱。然而,这种方法存在严重缺陷:生成的图谱主要是树状或非循环结构,难以捕捉现实世界中普遍存在的复杂循环关系、反馈回路和错综复杂的相互依赖。
WebSailor-V2对此进行了革命性改进。在V2版本中,研究团队不再满足于简单的图谱扩展,而是主动寻求节点间的密集连接,有意创建循环结构。这种方法确保生成的图谱不仅是树状扩展,而是一个丰富互连的网络,更准确反映现实知识的复杂非线性本质。此外,V2还保留了更完整的程序信息链,包括具体搜索查询和源URL的完整记录。这种设计使得每个实体都带有丰富的上下文特征,如搜索路径的深度、信息来源的可靠性评分、以及与其他实体的关联强度等统计特征。这些特征为后续QA生成提供了更精细的控制维度,使模型能够学习到信息检索过程中的微妙模式,而不仅仅是表面的问答对应关系。
超越Obfuscation:扩展不确定性
在不确定性表达方面,现有方法往往局限于单一类型,如obfuscation(实体替换),即用更通用或模糊的描述替换查询中的关键元素(如特定实体、日期或数值)。虽然这种方法能训练模型进行基本的上下文推断,但它仅覆盖了智能体所需能力的一小部分。
WebSailor-V2明确指出:“研究引入了更多种类的已定义不确定性,目的是激发模型更丰富和全面的高级推理能力。”尽管论文没有详细列出所有不确定性类型,但它强调需要超越简单的实体替换,以激发更广泛的高级推理行为,包括上下文推断、迭代信息收集、假设生成与验证,以及多源证据综合等复杂能力。稠密互连的图谱结构天然蕴含更复杂的逻辑关系和潜在矛盾信息,为生成包含深层次不确定性的问答对提供了理想基础。
不确定性光谱的深度解析:虽然obfuscation(实体替换)已成为引入不确定性、激发高级推理模式的常见方法,但论文明确指出:“这一系列技能虽然至关重要,但只是真正具备超人能力的网络代理所需能力的一个子集。”WebSailor-V2引入了更广泛的不确定性定义,期望激发模型展示更多样化和全面的高级推理能力。这些扩展的不确定性类型训练使Agent能够评估不同线索的区分能力,例如在FormFactor案例中识别"领导层变更"为最具识别度的信息点,从而构建高度精确的搜索查询。
结构化子图采样:确保逻辑多样性
随着图谱密度的增加,传统的子图采样方法面临组合爆炸的挑战。在V1版本中,研究团队采用随机采样并尝试枚举固定边数的所有可能子结构;但在V2中,图谱变得更加稠密,这种穷举方法变得计算上不可行。
拓扑覆盖的挑战:随着图谱密度的提升,子图采样的计算复杂度急剧上升,传统方法难以高效覆盖完整的结构复杂性谱系。
随机游走的解决方案:为此,WebSailor-V2采用了基于随机游走的子图提取方法,高效收集足够数量的非同构(通过Weisfeiler-Leman算法验证)、连通子图,确保它们共同代表完整的结构复杂性谱系。Weisfeiler-Leman算法在此用于验证子图的非同构性,确保采样的子图代表完整的结构复杂性谱系。这一技术选择源于其在图同构问题上的高效性,能有效避免重复采样相同拓扑结构的子图,从而最大化训练数据的逻辑多样性。
非同构子图的简明阐释:非同构子图是指具有不同拓扑结构的子图,Weisfeiler-Leman算法能高效识别这些结构差异。确保收集的子图非同构,意味着它们代表了完整的结构复杂性谱系,避免了训练数据中特定结构的过度代表,从而保证了数据的逻辑多样性。
节点角色均衡策略:更重要的是,系统会分析拓扑中非同构节点数量,使QA焦点均匀分布在所有轨道节点(即占据不同结构角色的节点)上,避免特定结构的过度代表,从而确保训练数据的逻辑多样性。这种结构化子图采样方法不仅解决了计算复杂性问题,还确保了数据的结构覆盖范围,为模型学习各种推理模式提供了坚实基础。
双环境RL框架——构建稳定可扩展的Agent训练生态系统
强化学习(Reinforcement Learning, RL)是提升Web智能体性能的关键环节,但其大规模应用面临严峻挑战:高成本、高并发请求带来的工程复杂性,以及API延迟、失败和不一致输出等问题,都会污染训练数据,损害策略学习效果。WebSailor-V2通过创新的双环境RL框架,有效解决了这一难题。

双环境RL训练框架示意图
仿真环境:算法快速迭代的"安全沙盒"
依赖真实Web API(如SerpAPI或Jina)进行RL训练会带来高成本、有限QPS和不一致输出等实际挑战。在开发初期,使用有限资源在真实环境中进行算法研究和数据整理会严重拖慢开发周期,导致消融研究的结论不够扎实。
WebSailor-V2构建了基于大规模离线Wikipedia知识库的专用仿真环境,配合定制的Web工具套件。该环境经过精心设计,确保Agent的交互动态、状态转换和奖励机制与真实环境高度一致,使在仿真环境中训练的策略能有效迁移到真实世界。通过将SailorFog-QA-V2生成流程适配到这一离线语料库,研究团队创建了专门用于仿真的训练和测试数据集。这一设计使研究团队能够在高频、低成本、完全可控的平台上进行算法实验,显著加速开发迭代过程。仿真环境成为算法快速迭代的"安全沙盒",允许研究者在不产生高昂成本的情况下,反复验证和优化RL策略。
双环境框架的闭环价值:如上图所示,双环境RL框架的核心是一个闭环系统:(1)在仿真环境中进行高频算法实验,(2)在真实环境中进行最终策略训练,(3)自动化数据合成与过滤管道根据训练动态动态调整训练集。这种设计确保了从数据生成到策略优化的完整闭环,使系统能够不断精炼其能力,更有效地促进深度研究智能体的构建。
真实环境:工程化的稳定性保障
虽然仿真环境对快速原型设计至关重要,但最终目标仍是在真实世界环境中训练智能体。这一过渡带来了复杂的工程挑战:WebSailor-V2的工具套件包含四个核心工具:
- search:调用Google搜索引擎,支持多查询同时搜索并返回每个查询的前10个结果,包含标题、摘要和URL
- visit:访问特定网页,返回基于目标的摘要(使用Qwen3-30B-A3B作为摘要模型)
- Google Scholar:学术领域专用搜索工具,用于检索学术文献
- Python interpreter:沙盒环境执行Python代码,支持复杂计算任务
这些组件的可靠性至关重要,因为外部API的波动性(延迟、失败、不一致返回)会污染轨迹。
为解决这些问题,WebSailor-V2设计了统一的工具执行接口,其核心是一个调度和管理层,负责协调工具执行。针对每种工具,研究团队设计了稳健的并发处理和容错策略:
- QPS限制:防止API过载
- 结果缓存:减少重复请求
- 自动超时和重试协议:处理临时故障
- 非关键故障的服务降级:确保核心功能不受影响
- 备份数据源的无缝切换:提高系统韧性
系统设计了一个统一的工具执行接口,其核心是调度和管理层,采用分层架构确保可靠性。在最底层,针对SerpAPI、Jina等不同工具,实现了特定的适配器,处理API特定的错误码和响应格式;中间层实现了QPS限制和结果缓存机制,通过LRU(Least Recently Used)算法管理有限的缓存空间;最上层则提供统一的抽象接口,将工具调用结果标准化为统一格式。这种设计不仅处理了API延迟和失败问题,还通过服务降级策略确保非关键工具故障不会导致整个训练流程中断。
这种多层设计确保从Agent视角看,工具调用过程被抽象为确定性和稳定接口,将训练循环与现实世界随机性隔离开来,显著降低了操作成本,同时保证了训练数据的质量。
数据-策略共生反馈循环:动态数据优化
WebSailor-V2的核心收获是:"数据是模型能力提升的核心驱动力,其重要性甚至超过算法"。高质量数据直接决定了模型通过自我探索泛化到分布外场景的上限。
为此,研究团队优化了实时数据,由训练动态引导。这种优化通过全自动的数据合成和过滤管道实现,该管道根据训练动态动态调整训练集。通过在数据生成和模型训练之间闭合循环,这种方法不仅确保了训练稳定性,还带来了显著的性能提升。
这种数据-策略共生反馈机制使系统能够根据训练动态合成和过滤高质量数据,使模型能够不断精炼其策略,从相关信息流中学习。数据和策略的这种共同进化,更有效地促进了深度研究智能体的构建。
训练流程的系统工程——从SFT冷启动到RL精炼
WebSailor-V2的训练流程体现了系统工程思维,每个环节都经过精心设计,确保最终性能的最大化。
SFT冷启动:RL成功的基石
监督微调(Supervised Fine-Tuning, SFT)阶段在WebSailor-V2中扮演着不可或缺的角色,尤其是对于相对小规模的模型。数据显示,仅经过SFT的WebSailor-V2-30B-A3B在BrowseComp-EN上已取得24.4分,在HLE上取得23.9分,甚至超越了许多完全训练的开源智能体。这一强劲的初始性能验证了SFT阶段对构建高质量Agent的基础性作用。
双引擎支持下的SFT优势:SFT阶段的高质量数据构建(数据引擎)为后续RL提供了稳健的初始策略,而仿真环境的快速迭代能力(环境引擎)则使我们能够高效验证不同SFT策略的效果。这一协同作用确保了SFT阶段能为RL提供强大的初始策略基础。
这一现象的背后有深刻的理论原因:复杂开放任务中的奖励通常非常稀疏。没有SFT提供的强大初始策略,智能体将难以进行有意义的探索,很少能成功完成任务,从而无法获得学习所需的正反馈。SFT阶段确保智能体从足够稳健的策略开始,能够有效探索问题空间,为RL算法提供足够密集的奖励信号,使其稳定收敛到更优的最终策略。
RL训练算法:稳定优先的设计哲学
在RL算法选择上,WebSailor-V2采用了GRPO(Generalized Reward Policy Optimization)的定制化变体,但研究团队明确指出算法本身并非成功的关键因素。他们的核心洞见是:"我们已尝试许多不同算法和 tricks,发现数据和训练环境的稳定性可能是决定RL是否有效的更关键因素"。
WebSailor-V2采用GRPO的定制化变体,其目标函数为:


为了确保训练稳定性,WebSailor-V2采取了多项措施:
- 严格的在线策略训练:使用最新策略持续采样轨迹,确保学习信号始终与模型当前能力相关
- 采用留一法(leave-one-out strategy)减少优势估计方差
- 对负样本采取保守策略,选择性排除某些负样本(如因长度限制未产生最终答案的样本)
- 利用更大的批次和组大小维持较小方差,提供充分的监督
这种"稳定优先"的设计哲学使RL训练过程更加健壮,避免了常见的"格式崩溃"(format collapse)等训练不稳定现象。

RL训练动态曲线
数据分布的重要性:合成数据 vs 人类标注数据
WebSailor-V2进行了一项关键实验:直接在BrowseComp测试集上训练模型,结果显著差于使用合成数据。这一发现揭示了数据分布质量的重要性。
原因在于:合成数据通过SailorFog-QA-V2的结构化生成流程,确保了数据分布的一致性和可学习性。相比之下,BrowseComp等人类标注数据集虽然质量高,但规模有限且存在标注者偏差,导致分布不够平滑。WebSailor-V2实验表明,在BrowseComp测试集上直接训练的模型性能显著低于使用合成数据训练的模型,这证实了高质量、一致分布的合成数据对模型学习更为有效。
高质量、一致分布的合成数据比小规模人类标注数据更能有效驱动模型学习。这一洞见对智能体训练具有深远意义:与其追求更多的人类标注数据,不如投入资源构建高质量、结构化的合成数据集,确保数据分布的一致性和可学习性。
性能突破的深层解读——为什么30B模型能超越671B系统?
WebSailor-V2-30B-A3B在关键基准测试中取得了令人瞩目的成绩:在BrowseComp-EN上35.3分,BrowseComp-ZH上44.1分,HLE上30.6分。这些结果不仅显著超越所有现有开源智能体,还优于DeepSeek-V3.1(671B参数,BrowseComp-EN 30.0分,HLE 29.8分)。这一"以小博大"的现象背后,蕴含着对智能体能力本质的深刻理解。
"以小博大"的真正原因
论文明确指出:“这一结果有力地验证了研究团队的核心假设:为模型配备极为强大的信息检索与整合能力,可以显著提升其逻辑推理能力,使其能够有效地对从外部获取的知识进行推理,并克服其自身规模的局限性。”
性能超越的真正原因并非模型规模,而是"异常强大的信息检索和综合能力"。WebSailor-V2通过精心设计的数据和训练框架,使模型能够有效地"基于"外部获取的知识进行推理,从而突破自身规模限制。
训练动态的深层分析
困难任务与简单任务的差异:对训练动态的分析揭示了WebSailor-V2成功的关键机制。在BrowseComp等困难基准上,pass@1和pass@3分数同时显著提升,表明RL真正扩展了模型的基础问题解决能力,增加了在几次尝试内找到正确解决方案路径的总体可能性。

RL带来的准确率提升
相比之下,在xbench-DeepSearch和GAIA等较简单基准上,主要是pass@1提升,而pass@3提升有限。这表明对于模型基础能力已能覆盖的任务,RL的主要作用是提高采样效率——教会智能体在第一次尝试时更可靠地选择最优路径。对于真正困难的问题,即使pass@3也可能不足以完全反映模型增强能力的上限。
熵动态的启示:策略熵的动态分析提供了另一个关键视角。如下图所示,策略熵在整个训练过程中保持在0.7-1.1的高水平区间,表明智能体维持了强大的探索能力,避免过早收敛到确定性策略。这一现象与封闭世界问题(如数学RL训练)中熵通常显著下降的趋势形成鲜明对比。

训练熵动态曲线
研究团队认为,这种持续的高熵是环境非平稳性的直接结果——网络工具返回的观察结果(搜索结果、网页内容)不遵循固定分布。这种现实网络环境的内在随机性和复杂性防止策略完全收敛到稳定、低熵状态,反而促进了更稳健、适应性更强的策略形成。
上下文长度的突破性影响:一个常被忽视但关键的技术改进是上下文长度的大幅扩展——从WebSailor-V1的32k增加到WebSailor-V2的128k,同时将最大ReAct迭代次数提升至100。Figure 5清晰展示了上下文长度与准确率的正相关关系:随着上下文长度从16k增加到128k,WebSailor-V2-30B-A3B的准确率从约5%稳步提升至33%,而工具调用预算从10次增加到100次时,准确率从约5%提升至33%。

上下文和工具调用预算对智能体性能的影响
值得注意的是,在32k上下文限制下,WebSailor-V2仍能达到约16分,这已显著优于基于72B密集模型的WebSailor-V1。这一对比有力证明了数据和训练流程改进对模型基础推理能力的深远影响,使较小模型能够超越更大模型。
DeepResearch Bench的深入解读
在DeepResearch Bench上的表现进一步验证了WebSailor-V2的能力。该智能体获得了48.9分,仅次于Gemini-2.5-pro-DeepResearch(49.7分)。论文分析这一微小差距主要源于训练重点不同——WebSailor-V2专注于最大化核心信息检索和综合能力,较少强调最终报告生成的风格质量优化。

DeepResearch Bench上与专有代理的对比结果
这一发现具有重要启示:WebSailor-V2的核心研究能力已接近顶尖闭源系统,差距仅存在于最终呈现层,而非基础研究能力。这表明通过精心设计的训练流程,开源模型可以达到与闭源系统相媲美的研究能力,为开源社区提供了明确的发展方向。
案例深潜:FormFactor的29步推理——双引擎如何协同工作
通过分析BrowseComp基准中的一个典型案例,可以清晰看到WebSailor-V2的"双引擎"如何协同工作,解决复杂的多步骤研究任务。
案例背景与挑战
该案例要求智能体识别一家符合多项具体条件的上市公司:
- 在2004-2006年间,某年有三位客户贡献了27%-74%的收入,另一年有四位客户贡献了55%-89%的收入
- 2011-2019年间,有前员工提起集体诉讼,和解金额在120-190万美元之间
- 2008年有来源显示,公司创始人角色变更,新CEO上任,变更于2007-2008财年第三季度初生效
- 公司在特拉华州注册,成立于1988-1995年间
这一任务要求智能体处理模糊线索、验证矛盾信息、整合分散证据,是典型的"深度研究"挑战。
双引擎在案例中的体现
在解决这一问题的过程中,WebSailor-V2展示了从SailorFog-QA-V2训练中获得的结构化推理能力:












FormFactor案例的初始问题与推理起点
在上面截图案例中,Agent展示了从第7步到第9步的关键转折:当初始宽泛搜索返回无关结果后,Agent没有简单放弃,而是通过分析线索的独特性,识别出"领导层变更"是最具识别度的信息点。这一洞察源于SailorFog-QA-V2训练中对"不确定性光谱"的广泛覆盖,使Agent能够评估不同线索的区分能力。随后,Agent构建了高度精确的搜索查询:"founder" "will become" "Chairman" "effective" "third quarter" "2008",这一查询精准命中FormFactor的新闻稿,体现了从训练数据中习得的"线索优先级评估"能力。
同时,智能体也展示了从双环境RL训练中获得的稳健决策能力:

FormFactor案例的中间验证过程
在上图中,识别出潜在候选公司FormFactor后,智能体没有过早得出结论,而是系统验证每个其他线索,进行一系列有针对性的搜索和文档分析。这一严谨的验证过程直接源于双环境RL训练中对工具调用稳定性的要求——在真实环境中,不准确的工具返回会污染训练数据,因此智能体学会了对每个信息点进行交叉验证,确保结论的可靠性。
从案例看Agent的认知过程
通过分析完整案例轨迹,可以清晰看到WebSailor-V2的29步推理过程如何体现"双引擎"协同工作:
1. 问题分解阶段(步骤1-6):将复杂问题拆解为可验证的子问题,体现SailorFog-QA-V2训练中获得的结构化思维能力
2. 关键线索识别阶段(步骤7-9):从失败中学习,识别最具区分度的"黄金线索",展示不确定性处理能力
3. 目标获取阶段(步骤10-12):精准定位目标公司FormFactor,验证基础信息
4. 系统验证阶段(步骤13-26):多维度交叉验证每个线索,体现严谨的研究方法
5. 综合与呈现阶段(步骤27-29):整合所有证据,构建逻辑清晰的最终答案

FormFactor案例的最终答案结构
上图展示了WebSailor-V2的最终答案结构,其逻辑清晰、证据充分,每个关键结论都有明确的来源支持。这种严谨的证据链构建方式,正是从SailorFog-QA-V2训练中获得的结构化推理能力的直接体现。
这一案例完美展示了高级AI研究助理的核心能力。该过程突显了智能体进行战略适应和从初始失败中学习的能力——这是真正的推理过程而非简单答案检索机制的标志。整个工作流程——问题分解、关键转折点识别、精确搜索执行、交叉验证——反映了人类专家采用的复杂研究方法。
特别值得注意的是,智能体在29步推理过程中展示了多种高级推理模式,包括线索分解、策略调整、关键信息识别、目标获取和系统验证。这种能力正是SailorFog-QA-V2中扩展的不确定性光谱和双环境RL训练共同作用的结果。
构建高性能Agent的系统工程启示
WebSailor-V2的成功为开源Web智能体的发展提供了宝贵经验,其核心启示在于将整个开发过程视为一个"强化学习"循环:任何组件的不稳定或缺乏鲁棒性都会导致错误的"奖励"信号,从而影响最终性能。
"数据-环境"双引擎范式的核心价值
WebSailor-V2的实践验证了其核心观点:"高质量数据和稳定训练环境比特定算法更为关键"。研究团队认为,构建高质量智能体是一个复杂的系统工程挑战;如果将整个开发过程视为"强化学习"循环,任何组件的不稳定或缺乏鲁棒性都会导致错误的"奖励"信号。
这一洞见对智能体研究具有深远指导意义:与其过度关注算法创新,不如投入更多资源确保数据质量和环境稳定性。系统工程思维应成为智能体开发的主导范式。
对未来研究的启示
基于WebSailor-V2的经验,未来研究应重点关注:
- 数据工程优先:构建高质量、多样化的训练数据,特别是扩展不确定性光谱和确保逻辑多样性
- 环境稳定性保障:设计稳健的训练环境,减少外部干扰,特别是开发高保真仿真环境
- 重视SFT阶段:为RL提供强大初始策略,特别是对中小规模模型
- 算法简化:避免过度复杂化RL算法,聚焦基础稳定性,采用"稳定优先"的设计哲学
通往AGI的务实路径
WebSailor-V2的性能收益表明,通过精心设计的数据和训练环境,中等规模开源模型可以达到与顶尖闭源系统相媲美的性能。这一成就验证了“代理范式是缩小强模型与弱模型之间差距的有效方法”这一核心假设。
研究团队未来工作会继续探索如何更有效地利用外部知识,使模型能够"reason over"获取的信息,从而突破自身规模限制。WebSailor-V2为开源社区提供了一条清晰路径:与其盲目追求更大模型或更复杂算法,不如专注于构建高质量数据和稳定训练环境。论文明确指出:"构建高质量Agent是一个复杂的系统工程挑战;如果将整个开发过程视为'强化学习'循环,任何组件的不稳定或缺乏鲁棒性都会导致错误的'奖励'信号。"这一洞见应成为开源Agent开发的核心指导原则。
开源社区应聚焦于构建更强大的"数据-环境"生态系统,而非单纯追求模型规模或算法复杂度。未来工作应更多投入数据工程,设计更丰富的不确定性类型,构建更稳健的训练环境,而非简单复制闭源系统的表面特征。
正如论文最后所言:通过WebSailor-V2的成功开发,研究团队希望这项工作能够提供有价值的见解,并为该领域的未来努力提供灵感。随着更多研究者认识到"数据-环境"双引擎的重要性,开源Web智能体将真正实现与闭源系统的并驾齐驱,甚至引领创新方向。