WebSailor 突破边界：助力开源智能体跨越复杂推理 “天花板”

大家好，我是肆〇柒，自从互联网时代开启以来，人类社会经历了多次信息技术变革，而互联网犹如一把双刃剑。一方面，它以每两年数据量翻一番的惊人速度，为人类打开了通往海量知识的大门；另一方面，也向我们的认知能力发起了前所未有的挑战。当我们面对无边无际的信息数据时，人类有限的记忆容量、脆弱的注意力稳定性，以及线性单一的探索路径，无疑成为了制约我们高效获取精准信息的瓶颈。

当下，AI Agent 的出现，成为了我们获取数据、知识的增强型工具。像 DeepResearch 这类专有智能体系统，在复杂信息检索领域得到赞许。以 BrowseComp 测试为例，它在定位互联网中那些晦涩难寻、多维度交织的信息时，展现出超乎人类的精准度，最高可达 67.4%。然而，与之形成鲜明对比的是，多数开源智能体模型在相同任务中准确率几乎为零，这赤裸裸地揭示了开源智能体在处理复杂推理任务时的先天不足，那么开源智能体注定要在这场认知革命中落后一步吗？

在此背景下，通义实验室推出了WebSailor开源项目。它聚焦于开源智能体的核心痛点 —— 降低极端不确定性，凭借独特的训练方法与数据合成策略，剑指开源与专有智能体之间的性能天堑，为开源智能体开辟了一条逆袭之路。WebSailor 项目不仅提出了创新的技术方案，更在理论层面深入剖析了现有技术的局限性，为智能体技术的发展提供了创新的思考。

WebSailor 突破边界：助力开源智能体跨越复杂推理 “天花板”

定义问题

智能体的 ReAct 框架解析

WebSailor 采用当下大家熟悉的 ReAct 框架，智能体在接收到问题后，会开启一段充满思考与行动的推理。以 “谁是 20 世纪最具影响力的物理学家” 这个问题为例，智能体首先会基于已有的知识储备或简单的搜索动作，产生初步的想法（Thought），这就好比我们在面对一个问题时脑海中的第一反应。接着，它会执行搜索动作（Action），就像我们打开搜索引擎输入关键词一样，然后获取搜索结果（Observation），这些结果就如同外界反馈给我们的信息。智能体再根据这些反馈结果调整思路，重复这个迭代过程，直至最终锁定答案，整个过程充满了动态调整与优化，力求在复杂的信息迷宫中找准方向。

ReAct 框架在 WebSailor 中的具体实现细节如下：

任务初始化 ：智能体接收问题后，将其编码为初始状态表示，结合问题的语义信息和已有的背景知识，生成初始的思考内容。例如，在处理 “寻找某物理学理论的提出者” 这类问题时，智能体会根据问题中的关键词 “物理学理论” 和 “提出者”，激活与物理学历史相关的知识节点。
迭代过程 ：在每次迭代中，智能体依据当前状态，通过策略网络生成思考内容和动作。思考内容是对当前问题理解和解决思路的描述，动作则是具体的操作指令，如搜索或访问特定网页。例如，在思考内容为 “需要确定该物理学理论的关键特征” 时，智能体执行搜索操作，查询与该理论相关的文献和资料。
状态更新 ：根据动作执行后的反馈结果（如搜索到的网页内容摘要），智能体更新状态表示。状态表示融合了原始问题、之前的思考内容、已执行的动作以及观察到的结果等信息，为下一轮迭代提供基础。

在不同任务层级下，ReAct 框架的运行机制有所不同：

Level 1 任务 ：由于其逻辑简单，智能体通常在初次思考后就能确定合适的动作，快速获取答案，迭代次数较少。例如，对于问题 “某知名事件发生的具体年份”，智能体可能仅需一次搜索动作，就能从权威资料源中找到准确答案。
Level 2 任务 ：初始不确定性较高，但存在明确解决路径。智能体按照既定步骤逐步推理，每一步的思考内容和动作都紧密关联，形成一个有序的链条。例如，在解决多跳问答 “某科学家的出生地所在国家的首都是哪里” 时，智能体先搜索科学家的出生地，再根据出生地搜索对应的国家首都。
Level 3 任务 ：面临高且难降低的不确定性，智能体需要在每次迭代中进行广泛的探索和尝试，灵活调整思路。比如，在处理 “寻找某小众文化现象的起源和传播路径” 这类问题时，智能体可能尝试多种不同的搜索关键词组合，从多个角度收集信息，并根据观察结果不断修正思考方向，逐步构建起对问题的完整理解。

信息检索任务的层级划分

为了更精准地理解和优化智能体的推理能力，将信息检索任务划分为三个层级（如下图所示）。

WebSailor 突破边界：助力开源智能体跨越复杂推理 “天花板”

信息检索任务可以分为三个层级。一级任务的逻辑结构相对简单，可以直接回答，或者通过调用单一、简单的工具来解决。二级任务类似于多跳问题，其解决方案需要通过一系列固定的推理步骤来获得。三级任务在经过混淆处理后，呈现出最为复杂且多变的结构，难以手动定义，其内在的不确定性也很难降低

Task Level 1 相对简单，它们的逻辑结构清晰明了，例如 “谁在 2004 年获得理查德・道金斯奖”，这类问题往往可以直接通过模型内部知识库的检索，或者依靠单次的网络搜索，就能迅速得到答案，犹如大海捞针。

进阶一点的 Task Level 2，虽然初始不确定性有所提高，但好在存在一条明确的解决路径。以多跳问答 “谁是 1986 年人民力量革命中最杰出人物” 为例，智能体需要按照既定的步骤，像侦探破案一样，逐步推理，每一步都环环相扣，最终解开谜团。

而 Task Level 3 则是智能体面临的终极挑战，它们不仅面临高不确定性，而且这种不确定性极难降低。比如 “阿里巴巴现任 CEO 母校的首位中国科学院院士是谁”，这类问题中实体之间的关系错综复杂，没有预定义的解决路径可供遵循。智能体像在大雾中探索，凭借创造性的探索和新颖的推理模式，才能在重重迷雾中找到通往答案的路径。

大规模复杂推理训练数据合成

SailorFog-QA 数据集构建

现在，走进 WebSailor 的数据 “工厂”，看看它是如何打造专属的训练数据集 ——SailorFog-QA 的。一切始于知识图谱的构建，以从 Wikidata 的 SPARQL 服务中获取的模糊实体作为起点，这就好比是为智能体的推理埋下了一颗种子。比如，以 “量子物理” 为起点，模拟网页浏览过程，收集与之相关的文本和特征信息，这些信息就像是一块块拼图碎片。然后，从这些碎片中提取实体和关系，构建起初始的节点和边，形成知识图谱的雏形。

接下来是子图采样与信息模糊化处理环节，从复杂图谱中采样出具有多样拓扑结构的子图，这就像是从一个庞大的知识迷宫中挑选出一个个独特的迷宫拼图。基于这些子图生成问题，同时引入模糊化处理，将精确日期变为模糊时期（“20 世纪初”），将完整名称部分遮蔽（“由姓氏首字母为‘F’的人创立的机构”），从而增加初始不确定性，形成 SailorFog-QA 数据集。这种模糊化处理就像是给问题蒙上了一层面纱，让智能体在训练过程中学会透过迷雾看真相。

数据集优势深入剖析

SailorFog-QA 数据集的优势不言而喻。首先，它精准复刻了真实世界中的复杂信息环境，让智能体在训练过程中就能接触到实际应用中可能遭遇的各种挑战场景，就像是在真实的战场中进行实战演练，而不是仅仅局限于理论上的纸上谈兵。其次，不同拓扑结构的子图天然衍生出丰富多样的推理模式，从多步演绎到组合分析，全方位锤炼智能体的推理能力，让智能体在各种复杂的推理场景中都能游刃有余。最后，随着图谱规模不断扩大，潜在子图数量呈非线性增长，这种可扩展性为模型训练提供了源源不断的海量素材，确保智能体的训练过程永远不会因为数据的匮乏而停滞不前。相较于其他数据集，SailorFog-QA 在数据复杂性和多样性上具有显著优势，为智能体训练提供了更为丰富的挑战场景。

基于专家 LRM 轨迹的推理重建

直接使用 LRM 输出的局限性

训练智能体的道路并非一帆风顺。在尝试直接使用开源大型推理模型（如 QwQ-32B）的输出时，发现了两个棘手的问题。一是风格污染，这些模型具有强烈的风格化倾向，它们冗长、花哨的推理过程如果直接用于微调，就像给智能体套上了一件不合身的紧身衣，限制了它们形成自主探索策略的能力，削弱了泛化能力。二是上下文过载，在复杂任务中，LRM 的冗长推理链很容易超出模型上下文窗口的限制，这就像是在有限的道路上运输过多的货物，导致性能下降，影响推理的连贯性。

推理重建方法的优化与创新

为了解决这些问题，研究者提出了一种巧妙的推理重建方法。首先，从专家 LRM 生成的轨迹中，仅保留正确的动作 - 观察序列，剔除冗余思考内容。这就好比是从一篇冗长的论文中提取出关键的摘要，保留最核心、最有价值的部分。例如，在解决 “某物理学家的出生年份与哪一科学发现时间相吻合” 的问题时，可以从 LRM 的完整轨迹中提取关键动作和观察结果。

复制

然后，针对每个动作步骤，利用独立的指令遵循模型生成简洁的逻辑推理思考，替代原 LRM 的冗长推理链。这就像是用精炼的语言重新讲述一个故事，既保留了故事的核心内容，又让它更加简洁易懂，最终形成高效、简洁的推理轨迹，为智能体提供清晰的行动指南。

强化学习方法

RFT 冷启动的深度解析

在强化学习的征程中，首先采用了 RFT 冷启动策略。在完整轨迹中，对智能体的思想、动作和环境观察结果进行特殊标记，这就像是给它们贴上了不同的标签，方便我们进行后续的筛选和处理。通过三阶段过滤，仅保留正确答案结尾、长度适中（不超过 32k token）且工具调用次数多的轨迹，确保监督信号的正确性和有效性。这就好比是在一堆金矿石中筛选出最纯的金子，为智能体的训练提供最优质的素材。

训练目标聚焦于提升智能体的决策能力，通过优化损失函数，让智能体在训练过程中学会生成有效的思想和动作。这就像是在训练一位新手司机，让他在反复练习中掌握如何在复杂的路况中做出正确的决策，从而在复杂任务中驶向成功的目的地。

DUPO 算法的核心原理与实现

DUPO 算法则是强化学习中的又一创新之举。在训练前，先筛选出过于简单的案例，避免训练过程中的时间浪费。在训练过程中，对同一批次中具有非零标准差的样本进行重复采样，这种方法相比传统方法，速度提升 2 - 3 倍。

同时，采用基于群体相对方式的优势估计方法，结合规则式奖励，综合格式验证和答案验证。这就像是为智能体设置了一套全面的考核标准，不仅要求它能生成正确的答案，还要确保它在行动过程中遵循预定义的格式，让智能体的每一个动作都精准无误，每一步推理都合情合理。具体来说，DUPO 算法通过以下公式计算优势函数：

WebSailor 突破边界：助力开源智能体跨越复杂推理 “天花板”

实验评估

实验设置与评估指标

在实验阶段，在 Qwen-2.5-3B 至 Qwen-2.5-72B 等不同规模模型上开展了 RFT 和 RL 训练，主要评估指标为 pass@1，重点测试 BrowseComp-en、BrowseComp-zh、GAIA、Xbench-DeepSearch 四大基准测试。这就像是让智能体参加不同级别的考试，全面检验它们的能力水平。

同时，与直接推理（涵盖非推理模型和推理模型）、专有浏览智能体（如 DeepResearch、Grok-DeepResearch 等）以及开源智能体（如 Search-o1、WebThinker 等）进行对比。这就像是在智能体的竞技场上，让 WebSailor 与各路高手过招，全方位衡量它的性能优劣。

主结果分析与图表深度解读

实验结果令人振奋。首先，直接推理模型在 BrowseComp-en/zh 上的糟糕表现凸显了其局限性，如 GPT-4.1 仅 1.5% 的准确率，这有力地证明了复杂信息检索任务仅仅依靠模型自身的知识和推理能力是远远不够的，必须借助外部工具与智能体框架，才能在复杂的信息中找到正确的方向（如下表所示）。

WebSailor 突破边界：助力开源智能体跨越复杂推理 “天花板”

主要在四个具有挑战性的基准测试上取得了成果。‡ 表示这些专有方法通过其网站进行手动评估。- 表示由于成本限制，没有这些结果。

而 WebSailor 的表现则堪称卓越，它在 BrowseComp-en/zh 上大幅领先其他开源智能体。例如，WebSailor-7B 准确率高达 6.7%，轻松超越 32B 的 WebDancer-32B（2.5%）和 WebThinker-RL（2.8%）。更令人惊叹的是，WebSailor-72B 在 BrowseComp-zh 上与专有智能体 Doubao 并驾齐驱，准确率均为 26.0%，与 DeepResearch 的 42.9% 准确率相比，也展现出了强大的竞争力。这就好比是 WebSailor 这匹开源的 “骏马” 在赛场上一路狂奔，不仅超越了众多开源的竞争对手，还与专有的 “千里马” 们齐头并进（如下图所示）。

WebSailor 突破边界：助力开源智能体跨越复杂推理 “天花板”

性能表现在 BrowseComp 中英双语基准测试中。DeepSeek-R1-Browse 是通过 ReAct 框架配备了浏览工具的 DeepSeek-R1，其实现方式与 WebSailor 相同。Doubao-Search 和 Grok-3 是专有的基于网络的产品（用 * 标记）。GPT-4o 配备浏览功能的结果取自 OpenAI 的官方信息

从上图的性能表现图中可以看出，WebSailor 在 BrowseComp-en/zh 上的准确率随着模型规模的增大而显著提升。例如，WebSailor-3B 在 BrowseComp-en 上的准确率为 3.3%，而 WebSailor-72B 则达到了 12.0%。这表明，随着模型规模的扩大，WebSailor 能够更好地处理复杂的推理任务，同时保持较高的性能稳定性。此外，与其他开源智能体相比，WebSailor 在所有模型规模下均表现出显著的性能优势，这进一步证明了其训练方法的有效性。

在下图中，对训练集与 WebDancer 和 BrowseComp-en 的工具调用次数分布进行了对比分析。可以看出，WebSailor 的训练集呈现出明显的长尾分布，许多样本需要多次工具调用才能完成任务。例如，WebSailor 的训练集中有相当一部分样本需要超过 10 次工具调用，而 WebDancer 的训练集中几乎没有超过 10 次的样本。这种长尾分布使得 WebSailor 在处理复杂任务时更具优势，因为它能够适应需要多次工具调用的复杂推理场景。同时，WebSailor 的训练集分布与 BrowseComp-en 的实际任务分布高度一致，这表明 WebSailor 的数据集设计能够很好地模拟实际应用中的复杂任务场景，为模型训练提供了有力支持。

WebSailor 突破边界：助力开源智能体跨越复杂推理 “天花板”

训练集中的工具调用数量与WebDancer和BrowseComp-en训练集中的工具调用数量的比较

下表展示了 SailorFog-QA 数据集与其他数据集在 ReAct 框架下的 pass@1 准确率对比。可以看出，SailorFog-QA 的准确率显著低于 WebDancer 训练集，这表明其任务难度更高。例如，DeepSeek-R1 在 WebDancer 训练集上的 pass@1 准确率为 84.4%，而在 SailorFog-QA 上仅为 38.9%。这进一步证明了 SailorFog-QA 数据集的复杂性和挑战性，同时也说明 WebSailor 在该数据集上的优异表现并非偶然，而是源于其独特的训练方法和数据集设计。

WebSailor 突破边界：助力开源智能体跨越复杂推理 “天花板”

在 ReAct 框架下，SailorFog-QA、WebDancer 训练集以及 BrowseComp-en 的 pass@1 准确率

从下图的 SimpleQA 基准测试结果可以看出，WebSailor 在处理简单任务时同样表现出色。尽管其主要优势在于复杂任务领域，但在 SimpleQA 上，WebSailor 仍然超过了其他方法，包括直接推理和基于搜索的智能体。例如，WebSailor 在 SimpleQA 上的 pass@1 准确率为 41.6%，而 Qwen-2.5-72B 的直接推理准确率仅为 12.7%。这表明 WebSailor 具备良好的向下兼容性，能够在处理复杂任务的同时，保持对简单任务的高效解决能力。

WebSailor 突破边界：助力开源智能体跨越复杂推理 “天花板”

在SimpleQA基准测试中的性能表现

下图展示了使用 Pass@1 和 Pass@3 的详细评估结果。可以看出，经过 RL 训练后，WebSailor 在所有基准测试上的性能均有显著提升。特别是在 BrowseComp-en/zh 等复杂任务上，Pass@1 和 Pass@3 的差距明显缩小。这表明 RL 训练能够有效提高模型的稳定性和样本效率，使智能体在复杂任务中更容易收敛到正确的答案路径。例如，在 BrowseComp-en 上，经过 RL 训练后，WebSailor 的 Pass@1 准确率提升了 6.3%，而 Pass@3 准确率提升了 8.3%。这种提升在 BrowseComp-zh 上更为显著，Pass@1 和 Pass@3 分别提升了 6.6% 和 4.7%。这进一步证明了 RL 训练在优化智能体推理能力方面的重要作用。

WebSailor 突破边界：助力开源智能体跨越复杂推理 “天花板”

使用Pass@1、Pass@3的详细评估结果

见下图对比了直接 RL 训练与经过 RFT 冷启动后 RL 训练的效果。可以看出，经过 RFT 冷启动的模型在训练过程中工具调用次数保持稳定且较高，而直接 RL 训练的模型工具调用次数较低且增长缓慢。

WebSailor 突破边界：助力开源智能体跨越复杂推理 “天花板”

比较 Qwen - 2.5 - instruct - 32B 的直接强化学习（RL）训练与经过 RFT 冷启动后的强化学习训练

这表明 RFT 冷启动能够为模型提供良好的初始策略，帮助其更快地学习到有效的推理模式。最终，经过 RFT 冷启动的模型在收敛性能上显著优于直接 RL 训练的模型。例如，在 BrowseComp-en 上，经过 RFT 冷启动的 WebSailor 的 Pass@1 准确率比直接 RL 训练的模型高出 10% 以上。这充分证明了 RFT 冷启动在智能体训练中的重要性。

此外，通过对比 SailorFog-QA 数据集的工具调用次数分布与 BrowseComp-en 的分布，我们发现两者高度相似，均呈现长尾分布。这表明 WebSailor 在该数据集上训练后，在 BrowseComp-en/zh 等复杂任务中表现出色，充分验证了数据复杂性与模型性能之间的正相关性。

拓展应用与影响

多领域应用场景示例

WebSailor 的强大复杂推理能力不仅局限于信息检索领域，在医疗诊断、金融分析、教育辅导等多个领域也具有广泛的应用前景。

医疗诊断 ：在处理复杂的病症诊断时，WebSailor 可以整合患者的症状、病史、检查结果等多源信息，通过多轮推理和工具调用，为医生提供潜在病因分析和治疗方案建议。例如，对于一些罕见病的诊断，智能体可以搜索全球医学文献，结合患者的症状表现，逐步缩小可能的病因范围，帮助医生制定精准的诊疗计划。
金融分析 ：在金融领域，WebSailor 可以分析海量的金融市场数据、公司财务报表、行业新闻等信息，为投资者提供投资决策支持。例如，智能体可以对某公司的财务状况进行全面分析，通过多步推理评估其未来盈利能力和发展前景，辅助投资者判断该公司的股票投资价值。
教育辅导 ：作为智能教育助手，WebSailor 可以根据学生的学习进度、知识掌握情况和学习风格，为学生提供个性化的学习资源推荐和学习路径规划。例如，针对学生在某一学科知识点上的薄弱环节，智能体可以搜索相关的学习资料、在线课程和练习题，按照学生的理解能力和学习习惯，生成定制化的学习计划，帮助学生提高学习效果。

对相关技术发展的启示

WebSailor 对于整个智能体技术、自然语言处理以及人工智能领域的发展带来了一些启示。

智能体推理技术创新 ：WebSailor 通过独特的训练方法和数据合成策略，成功赋予开源智能体强大的复杂推理能力，为智能体推理技术的创新提供了新的思路和方法。其提出的 ReAct 框架下的多轮迭代推理模式以及 DUPO 算法等技术，为智能体在复杂任务中的推理能力提升提供了有效的解决方案，推动了智能体推理技术从简单的线性推理向复杂的多步推理和策略性推理的转变。
数据驱动的智能体训练方法 ：SailorFog-QA 数据集的构建方法为智能体训练数据的合成提供了新的范式。通过从真实世界复杂信息环境中采样和模糊化处理生成具有高不确定性和多样性的训练数据，使得智能体能够在更贴近实际应用场景的数据上进行训练，提高了智能体的泛化能力和适应性。这种数据驱动的训练方法也为其他智能体系统的开发提供了重要的参考，促使研究者更加注重训练数据的质量和复杂性，以提升智能体在实际任务中的表现。

与现有技术对比

与更多智能体系统的对比

除了刚才提到的 DeepResearch、WebDancer 等，WebSailor 与其他具有代表性的智能体系统相比也展现出显著的优势和特点。

与 GPT-4o 浏览器扩展对比 ：GPT-4o 浏览器扩展虽然具有一定的信息检索能力，但在处理复杂的多跳推理任务时，性能相对较弱。例如，在 BrowseComp-en 上，GPT-4o 的准确率仅为 1.9%，而 WebSailor-72B 的准确率达到了 12.0%。这表明 WebSailor 在复杂推理任务中能够更有效地综合利用搜索结果和多轮推理，找到正确的答案路径。
与 Wolfram|Alpha 智能体对比 ：Wolfram|Alpha 智能体擅长处理数学计算和科学数据查询等任务，但在需要广泛信息收集和复杂推理的开放域问题上表现有限。WebSailor 则凭借其强大的网络搜索能力和多步推理机制，在开放域复杂信息检索任务中更具优势。例如，在处理 “某历史事件对多个领域的影响分析” 这类需要跨领域信息整合和深度推理的问题时，WebSailor 能够通过多轮搜索和推理，给出更全面、深入的答案。

与传统信息检索方法的对比

与传统的信息检索方法（如关键词搜索、布尔检索等）相比，WebSailor 在处理复杂信息检索任务时具有显著的优越性。

语义理解和推理能力 ：传统信息检索方法主要基于关键词的匹配，难以理解问题的语义和背后的复杂关系。而 WebSailor 能够对问题进行语义解析，理解其背后的意图和逻辑关系，并通过多轮推理探索答案。例如，对于问题 “某文学作品中人物关系及其对情节发展的影响”，关键词搜索只能找到包含相关关键词的文献，而 WebSailor 可以通过分析人物关系的多个维度和情节发展的不同阶段，深入分析它们之间的相互作用和影响，提供更具有洞察力的答案。
动态交互和探索能力 ：传统检索方法是一次性的，用户需要根据搜索结果手动调整关键词进行下一次搜索。WebSailor 则能够根据搜索结果动态调整思路，进行多次工具调用和探索，逐步逼近正确答案。例如，在搜索 “某新兴技术在不同行业中的应用现状和趋势” 时，WebSailor 可以先搜索该技术的概述，了解其主要特点和应用领域，然后针对每个行业进行深入搜索和分析，形成对问题的全面解答。

局限性

局限性分析

尽管 WebSailor 在实验中取得了比较好的成绩，但它并非十全十美。目前，为了防止上下文过载，训练轨迹长度被限制在 32k token以内，这无疑给模型处理更复杂问题的能力套上了一道枷锁。在面对那些需要超长推理链条的复杂任务时，模型往往因超出长度限制而功亏一篑。例如，在一些极端复杂的推理任务中，可能需要超过 100 次的工具调用，而当前的限制使得模型无法有效处理此类任务。

另外，WebSailor 在某些简单问题上表现出的过度思考倾向也引起了我们的关注。例如，对于 “苹果公司的现任 CEO 是谁” 这样简单的问题，它仍进行多步工具调用。然而，深入分析后可以发现，这种 “过度思考” 其实是智能体在验证信息准确性，从侧面反映了它谨慎的推理策略。这种策略虽然保证了答案的准确性，但也可能导致推理效率的下降。例如，在处理大量简单查询时，这种过度思考可能会使模型的响应时间增加 2 - 3 倍，从而影响用户体验。

改进优化方向

可以有两大优化方向。一是探索更高效的训练框架，将尝试迁移到异步训练框架，以期提升训练效率，支持更长时间的 RL 训练。通过异步训练，不同智能体可以在各自的环境中独立探索，然后将经验汇总到一个共享的策略网络中。这样，模型就能像攀登高山一样，一步步征服那些更为复杂的推理任务高峰。例如，在新的训练框架中引入多智能体协作机制，让多个智能体同时处理不同的任务分支，从而提高整体推理效率。

二是优化推理策略，将在确保复杂任务高性能的同时，研究如何减少不必要的工具调用，提高推理效率。这就像是为智能体打造一套更加高效的行动指南，让它在信息的海洋中航行得更加迅捷而精准。可以通过引入基于任务复杂度的动态推理策略，让智能体能够根据任务的难易程度自动调整推理深度和工具调用次数。例如，对于简单任务，智能体将采用快速、直接的推理路径；而对于复杂任务，则启用深度探索模式，确保在复杂性和效率之间取得平衡。

此外，还可以探索如何将 WebSailor 的能力扩展到更多领域，如多模态信息检索和实时交互式推理。这将为智能体技术的应用开辟新的可能性，使其能够在更广泛的场景中发挥作用。

总结

本文介绍了一个名为 WebSailor 的开源项目，目标是提升开源 web Agent 系统在复杂信息搜索任务中的推理能力，以缩小与专有系统的差距。

WebSailor 方法论

高不确定性任务生成：

通过在真实网站上进行随机游走构建复杂知识图谱，生成包含已知实体和关系的子图，形成高不确定性问题。

使用信息模糊化技术增加初始模糊性，迫使模型进行复杂推理。

RFT 冷启动：尽管有研究建议跳过监督微调（SFT），但 WebSailor 的研究表明，适度的拒绝采样微调（RFT）对于初始化 web 代理模型至关重要。
DUPO 算法：提出了一种新的强化学习算法 DUPO，通过动态采样策略提升训练效率和效果。

综上，WebSailor 项目通过生成高不确定性的训练数据和优化 RL 算法，显著提升了开源 web 智能体系统在复杂信息搜索任务中的推理能力，使其性能接近专有系统。它在 BrowseComp-en/zh 等多项基准测试中取得的优异成绩。这项工作不仅推动了开源模型的发展，也为未来更强大的智能体系统的构建奠定了基础。这个开源项目为我们展示的整个构建过程，非常具有 Agent 整体落地的实战参考价值，值得大家上手实战复现。

WebSailor 突破边界：助力开源智能体跨越复杂推理 “天花板”

定义问题

智能体的 ReAct 框架解析

信息检索任务的层级划分

大规模复杂推理训练数据合成

SailorFog-QA 数据集构建

数据集优势深入剖析

基于专家 LRM 轨迹的推理重建

直接使用 LRM 输出的局限性

推理重建方法的优化与创新

强化学习方法

RFT 冷启动的深度解析

DUPO 算法的核心原理与实现

实验评估

实验设置与评估指标

主结果分析与图表深度解读

拓展应用与影响

多领域应用场景示例

对相关技术发展的启示

与现有技术对比

与更多智能体系统的对比

与传统信息检索方法的对比

局限性

局限性分析

改进优化方向

总结

WebSailor 方法论

相关资讯

刷新复杂Agent推理记录！阿里通义开源网络智能体超越DeepSeek R1，Grok-3

阿里通义开源网络智能体 WebSailor，登顶开源网络智能体榜单

开源Agent新标杆：通义WebSailor多榜夺魁，挑战OpenAI高难度Agent基准BrowseComp