WebResearcher：从线性累积到迭代进化，重塑AI研究范式的三大支柱

大家好，我是肆〇柒。本文一篇来自阿里巴巴通义实验室（Tongyi Lab, Alibaba Group）的研究，是通义 Deepresearch 发布的系列研究之一。这篇论文不仅推出了一个名为WebResearcher的新型AI智能体，更重要的是，它提出了一种名为"IterResearch"的全新范式，期望从根本上解决长程推理任务中的核心瓶颈。

大家好，我是肆〇柒。本文一篇来自阿里巴巴通义实验室（Tongyi Lab, Alibaba Group）的研究，是通义 Deepresearch 发布的系列研究之一。

这篇论文不仅推出了一个名为WebResearcher的新型AI智能体，更重要的是，它提出了一种名为"IterResearch"的全新范式，期望从根本上解决长程推理任务中的核心瓶颈。

在人工智能向通用智能（AGI）迈进的征途中，让模型从被动的知识消费者，转变为能主动探索、验证与合成新知识的研究者，已成为一个关键转折点。近年来，"深度研究"（Deep Research）智能体的兴起，正是这一趋势的集中体现。然而，当任务复杂度持续攀升，当前主流系统所依赖的"单上下文线性累积"范式正日益显露出其结构性瓶颈——认知工作区被历史信息淹没，早期错误如病毒般持续污染后续推理。

在此背景下，阿里巴巴通义实验室推出的WebResearcher，并非一次简单的性能优化，而是一场针对长程智能体底层逻辑的范式革命。其核心贡献"IterResearch"通过将研究过程重构为一个可迭代、可重置的循环，从根本上解决了旧范式的两大顽疾："认知工作区窒息"与"不可逆噪声污染"。这不仅带来了性能上的飞跃，更重新定义了我们构建下一代AI智能体的方式。

WebResearcher：从线性累积到迭代进化，重塑AI研究范式的三大支柱

WebResearcher 与顶尖深度研究智能体的性能对比

上图直观展示了这一革命性突破：在被誉为"人类最后的考试"（Humanity's Last Exam, HLE）的顶级学术挑战中，WebResearcher-heavy（使用Qwen3-235B-A22B作为骨干模型的版本）以**36.7%的准确率大幅领先第二名DeepSeek-V3.1（29.8%）；在复杂的网页导航任务BrowseComp-en上，它达到51.7%**的准确率，与OpenAI的闭源系统打成平手，同时将最佳开源系统DeepSeek-V3.1（30.0%）远远抛开21.7个百分点。这些数据清晰表明，WebResearcher已建立起不可忽视的性能壁垒。

长程智能体的"范式瓶颈"——从量变到质变的临界点

回顾近期开源与闭源领域涌现的代表性深度研究智能体，无论是OpenAI的Deep Research、Google的Gemini Deep Research，还是WebThinker、WebSailor等开源项目，它们普遍采用了一种看似直观的"单上下文线性累积"架构。在这种模式下，智能体每一步的思考、工具调用结果和检索到的信息，都会被无差别地追加到一个不断膨胀的上下文窗口中。

这一范式在解决中等复杂度问题时取得了显著成功，是AI Agent能力演进过程中不可或缺的"量变"阶段。然而，随着任务向多跳、跨域、长周期的方向发展，这种线性累积的弊端愈发明显。首先，是"认知工作区窒息"（Context Suffocation）：随着上下文窗口被历史信息填满，留给模型进行深度推理的空间急剧压缩，迫使智能体在信息尚未充分消化时就做出仓促结论。其次，是"不可逆噪声污染"（Irreversible Noise Contamination）：一旦引入无关信息或出现初始判断错误，这些"噪声"会永久滞留在上下文中，无法被修正或过滤，导致后续所有推理都建立在错误的基础之上，形成雪崩式的误差传播。

WebResearcher：从线性累积到迭代进化，重塑AI研究范式的三大支柱

在 HLE、BC-EN 和 BC-ZH 基准上，不同智能体的核心对比结果

上表显示，在HLE基准测试中，单上下文智能体（Mono-Agent）的准确率仅为18.7%，而采用IterResearch范式的WebResearcher-30B-A3B则达到28.8%，差距高达10.1个百分点。这一定量证据有力地证明，旧范式的缺陷已无法通过简单的模型升级或数据扩充来解决。

这两个缺陷揭示了一个深刻的悖论：智能体越是努力搜集信息来解决问题，其用于处理信息的推理能力反而越弱。这标志着行业已抵达一个必须进行"范式转移"的临界点。WebResearcher的价值，正在于它没有选择在旧范式上修修补补，而是彻底颠覆了研究过程的建模方式，提出了一套名为"IterResearch"（Iterative Deep-Research Paradigm的缩写）的全新架构，开启了一场从"线性累积"到"迭代合成"的深刻变革。

解构革命——IterResearch的MDP内核与工程实现

要理解IterResearch的革命性，最直观的方式是对比其与传统范式的工作流差异。

WebResearcher：从线性累积到迭代进化，重塑AI研究范式的三大支柱

“迭代式深度研究范式”与主流“单语境范式”的对比示意图

上图清晰地展示了这一点。左侧的传统范式如同一条不断增粗的河流，所有信息汇成一股洪流，最终因体量过大而变得迟缓浑浊；右侧的IterResearch则像一个精密的循环系统，每一圈都进行提炼与净化，确保流动的是高纯度的"知识精华"。

这一精妙设计的理论基石，是将整个研究过程形式化为一个马尔可夫决策过程（Markov Decision Process, MDP）。在每个研究轮次，智能体的状态被严格限定为三个核心组件：

1. 原始问题（Question）：贯穿始终的研究目标。

2. 进化报告（Report_{i-1}）：上一轮生成的、融合了所有关键发现的摘要。

3. 最新工具响应（Tool Response_{i-1}）：上一轮动作的直接反馈。

这种精简状态的设计，完美满足了MDP的马尔可夫性——当前决策仅依赖于当前状态，而非冗长的历史轨迹。状态间的转换通过一个"重建"函数完成：丢弃临时的思考草稿和过时的交互细节，只保留经过提炼的Report和最新的Tool Response，从而为下一轮推理构建一个轻盈、聚焦的认知工作区。

在工程实现上，IterResearch通过一套结构化的元信息框架来指导每一轮的行为：

Think：这是本轮的"认知草稿"，智能体在此分析当前状态、反思进展并规划下一步。它的存在保证了推理的透明性和完整性，但关键在于，Think的内容不会进入下一个状态，避免了思维碎片对后续工作的干扰。
Report：这是整个范式的灵魂所在，扮演着"中央记忆"和"知识蒸馏器"的双重角色。智能体并非简单地将新发现追加到报告末尾，而是必须将其与现有知识进行主动整合，解决潜在冲突，更新结论，生成一份连贯、高密度的摘要。例如，当新检索到的信息与现有知识矛盾时，智能体需评估证据强度并更新报告。通过强制性合成，Report始终保持紧凑（通常小于500 tokens），确保后续轮次有充足空间进行深度推理。这个强制性的"合成"步骤，是阻断噪声、实现知识提纯的核心机制。
Action：基于Think的分析和Report的总结，智能体决定采取具体行动，即调用外部工具（如搜索、浏览、代码执行）或给出最终答案。

这一设计带来了优势：无论研究进行多少轮，智能体的认知工作区大小恒定，推理能力永不衰减，实现了理论上"无界"的研究深度。同时，通过Report的迭代更新，早期错误可以被识别和修正，噪声被有效过滤，整个研究过程呈现出"单调信息增益"的良性进化态势。

更值得注意的是，这一范式为训练方法带来了创新空间。在训练过程中，IterResearch采用拒绝采样微调（Rejection Sampling Fine-Tuning）策略，严格筛选仅保留最终答案与参考答案完全匹配的轨迹进行训练，确保模型学习到端到端正确的推理过程。这意味着，即使某条轨迹前90%的推理正确，但最终答案错误，整条轨迹也会被"拒绝"。这种"结果导向"的筛选确保了模型学习到的是端到端正确的推理过程，而非部分正确的片段。

此外，迭代范式天然产生的多轮次样本为强化学习提供了丰富素材。每个研究问题可产生∑gG=1 T(i)g个训练样本，实现了显著的数据放大效应，这是单上下文方法无法企及的优势。然而，可变长度轨迹的训练挑战需要特殊处理，IterResearch采用最小损失下采样技术：这一技术确保了分布式训练稳定性，同时最小化数据损失（通常<1%），是实现高效训练的关键工程细节。

通过Group Sequence Policy Optimization (GSPO)，IterResearch能够优化多轮次推理策略。在这一框架下，所有∑gG=1 Tg轮次形成一个训练组，实现高效的批量训练，同时保持组级别的优势归一化。这种设计与传统GSPO不同——传统方法将每条轨迹单独处理，而IterResearch利用轨迹的自然分解，将每轮视为独立训练样本，同时保持所有轮次的组级优势归一化，最大化数据利用效率，确保在不同研究深度上实现均衡学习，为长程推理提供了坚实的训练基础。

实证革命——数据与行为分析揭示的统治力

理论的优势需要实验的检验。为了剥离模型、数据等因素的影响，研究团队进行了严谨的消融实验。

WebResearcher：从线性累积到迭代进化，重塑AI研究范式的三大支柱

在 HLE、BC-EN 和 BC-ZH 基准上，不同智能体的核心对比结果

上表对比了三种配置：基础的"Mono-Agent"（单上下文）、使用IterResearch训练数据的"Mono-Agent+ Iter"，以及完整的"WebResearcher"（迭代范式）。

结果显示，"Mono-Agent+ Iter"相比基础版有稳定提升，这证明了WebFrontier数据引擎本身具有普适价值，能增强任何模型的工具使用能力。然而，最关键的差距体现在"Mono-Agent+ Iter"与"WebResearcher"之间。例如，在HLE基准上，WebResearcher-30B-A3B以28.8%的成绩领先"Mono-Agent+ Iter"25.4%。这一"决定性优势"无可辩驳地证明，性能的飞跃主要源于

架构范式本身的优越性，而非仅仅是数据质量的提升。旧范式下的线性累积，终究无法克服其内在的"语境退化"和"不可逆错误传播"两大致命伤。

更令人信服的是对智能体行为的分析。在以学术问答为主的HLE基准上，智能体策略高效而精准，平均仅需4.7个回合即可解决问题，且大量使用学术文献搜索（Scholar）工具。而在需要复杂网页导航的BrowseComp基准上，智能体展现出了惊人的持久力，平均每个任务耗时高达61.4个回合，搜索（Search）和页面访问（Visit）成为主导工具。这种根据任务本质自适应调整研究策略的能力，正是IterResearch赋予智能体的高级认知特征，是被"窒息"工作区所束缚的旧范式智能体难以企及的。

特别值得注意的是工具调用模式的差异：在HLE任务中，Scholar工具占所有工具调用的25.4%，反映了对专业学术资源的精准利用；而在BrowseComp任务中，Search和Visit工具分别占56.5%和39.7%，共同构成了96%以上的工具调用。这清晰表明，IterResearch能够根据任务需求动态调整其工具使用策略，实现真正的"任务感知"行为。

支撑革命——数据引擎与推理框架的协同创新

一场成功的革命，离不开充足的"弹药"和高效的"战术"。WebResearcher的成功，还得益于两大关键支撑：为其"造血"的数据引擎WebFrontier，以及实现测试时扩展的推理框架Research-Synthesis。

WebResearcher：从线性累积到迭代进化，重塑AI研究范式的三大支柱

多智能体系统驱动的三阶段数据合成流程总览

上图清晰展示了WebFrontier的三阶段闭环流程：从原始语料库开始，经过"相关性分组"形成"复合单元"，再由ItemWriter Agent生成初始问答对；随后进入迭代循环，工具增强的ItemWriter Agent不断升级问题复杂度；最后通过多阶段质量控制确保数据质量。

WebFrontier直面高质量长程任务数据稀缺的行业难题。其创新之处在于一个三阶段的闭环流程：种子生成、工具增强的复杂度升级和严格的质量控制。其中最核心的是"自举"（refinement loop）机制：一个配备了搜索、浏览、代码解释器等工具的智能体，能够将一个简单的种子问题，通过四个关键步骤系统性地升级为复杂的、需要多源信息合成的研究问题：

1. 知识扩展：查询外部源拓宽问题范围。例如，将"量子计算的基本原理"扩展为"量子纠错码在超导量子计算机中的实现挑战及其对Shor算法的影响"。

2. 概念抽象：提炼高层原理、识别跨域关系。如从具体实验数据中归纳出"量子退相干时间与量子比特数量的指数关系"。

3. 事实验证：通过多源交叉验证确保答案准确性，同时比对arXiv论文、权威教科书和实验数据集。

4. 计算公式化：利用Python环境创建需定量计算的问题，如"基于公开的LIGO数据，计算GW150914事件中黑洞合并释放的能量相当于多少个太阳质量"。

这一过程本身就模拟了人类研究者的思维方式，生成的数据不仅规模大、质量高，而且天然契合IterResearch的"探索-合成"循环理念。更关键的是，WebFrontier产生的训练数据能显著提升任何模型（包括旧范式）的工具使用能力，凸显了新范式对整个生态的赋能作用。

值得注意的是，WebFrontier的数据生成过程与IterResearch范式高度一致，都遵循"探索-合成-再探索"的循环逻辑。这种内在一致性确保了训练数据与推理范式的完美匹配，是性能飞跃的隐藏关键。在质量控制阶段，WebFrontier采用双重验证机制确保数据质量：

基线验证：QuestionSolver Agent在无工具模式下尝试回答，过滤掉过于简单的问题
高级验证：同一Agent在工具增强模式下重新尝试，仅保留能被工具增强型Agent解决但基线模型无法解决的问题

此外，SimilarityScorer Agent会过滤与现有数据语义冗余的新生成对，保持数据集多样性。这种精准定位"能力间隙"（capability gap）的机制，确保了生成的数据既具有挑战性又可解，为训练高质量智能体提供了坚实基础。

Research-Synthesis框架则解决了测试时扩展的难题。直接聚合多条完整研究轨迹的上下文成本极高。该框架的巧妙之处在于，利用"最终报告"作为高密度信息载体。

WebResearcher：从线性累积到迭代进化，重塑AI研究范式的三大支柱

推理—综合框架图解

上图生动展示了这一过程：在"并行研究"阶段，多个Research Agent独立探索，各自生成一份浓缩了全部推理路径的报告；在"集成综合"阶段，一个专门的"综合代理"（Synthesis Agent）只需阅读这些报告，即可融合不同视角，得出更全面、稳健的结论。

WebResearcher：从线性累积到迭代进化，重塑AI研究范式的三大支柱

Reason-Synthesis Framework 中 n 值的影响

上图显示，随着并行智能体数量的增加，性能持续提升，但存在明显的边际效益递减。当从1增加到8时，HLE准确率从28.8%跃升至35.65%，但时仅微增至36.7%。这为实际部署提供了清晰的成本-收益权衡方案，使架构师能够在性能提升与计算成本之间找到最佳平衡点。

深入分析上图揭示的规律表明，8个并行智能体已能捕获绝大多数的性能增益，为实际部署提供了明确的成本效益拐点。这种"边际效益递减"规律对系统架构师设计生产环境具有直接指导价值，而不仅是学术观察。

WebResearcher配备了四类专业工具，每类工具都经过精心设计以支持高效研究：

Search工具：支持批量查询，返回每个查询的前10个结果，包含标题、摘要和URL，便于快速评估相关性
Scholar工具：提供学术文献的作者、出版 venue 和引用计数等元数据，支持高效学术研究
Visit工具：基于Jina.ai实现目标导向的网页内容提取，代理提供URL和提取目标（如"查找实验结果"），工具首先检索完整内容，然后使用Qwen3基于指定目标生成聚焦式摘要，避免信息过载
Python工具：在沙盒环境中执行代码，支持数据分析和可视化库，所有输出明确打印以确保计算结果清晰呈现

特别是Visit工具的"目标导向摘要"机制，直接解决了传统网页浏览中信息过载的问题，是支撑IterResearch范式的关键基础设施。这些工具系统的设计细节，展现了WebResearcher工程实现的成熟度，使其能够处理真实的长程研究任务。

影响革命——Benchmark统治力与行业启示

在6项极具挑战性的基准测试中，WebResearcher展现了统治级的表现，为这场范式革命提供了最强有力的背书。这些结果不仅体现在绝对性能上，更体现在多维度的适应性上。

WebResearcher：从线性累积到迭代进化，重塑AI研究范式的三大支柱

在通用网页导航与推理基准测试中的表现

WebResearcher：从线性累积到迭代进化，重塑AI研究范式的三大支柱

在面向目标的复杂网络任务基准测试中的结果

上表全面展示了WebResearcher在不同任务类型上的表现。在通用网络导航与推理基准（HLE、BrowseComp）上，WebResearcher-heavy取得了**36.7%的准确率，大幅超越了DeepSeek-V3.1（29.8%）和OpenAI Deep Research（26.6%），彰显了其在深度知识合成方面的绝对优势。在复杂的网页导航任务BrowseComp-en上，它达到了51.7%**的准确率，与OpenAI的闭源系统持平，同时将最佳开源系统DeepSeek-V3.1（30.0%）甩开21.7个百分点。在中文网页导航任务BrowseComp-zh上，它同样表现出色，达到56.8%的准确率，接近OpenAI-o3的58.1%，显著优于DeepSeek-V3.1的49.2%。这些结果证明，IterResearch通过结构化的合成过程，能够有效处理跨语言信息源，避免了单上下文系统在积累多语言内容时常见的混淆问题。

在复杂目标导向网络任务（GAIA、Xbench-DeepSearch、Frames）上，WebResearcher同样展现出卓越能力。在GAIA基准上，它以75.7%的准确率超越所有评估系统，包括Claude-4-Sonnet（68.3%）和OpenAI-o3（70.5%），领先优势高达9.7个百分点。在Xbench-DeepSearch上，它达到73.0%的准确率，超越DeepSeek-V3.1（71.2%）和其他开源替代方案。在Frames基准上，它以85.1%的准确率领先DeepSeek-V3.1（83.7%）和OpenAI-o3（84.0%）。

这些数据背后揭示了一个重要规律：在需要复杂多步推理的任务中，IterResearch的优势更加显著。这正是因为这些任务最能体现其核心价值——通过周期性合成和工作区重建，维持高质量推理能力于整个研究过程。相比之下，单上下文系统随着研究轮次增加，性能会逐渐下降，这在BrowseComp任务中尤为明显（平均61.4轮），而IterResearch仍能保持稳定输出。

这一成功带来的启示深远：

对研究者而言，未来的竞争焦点将从单纯的模型规模竞赛，转向智能体架构的创新。IterResearch提供了一个可复用的优秀模板。
对系统架构师而言，"迭代合成"和"周期性知识蒸馏"的思想具有极强的普适性，有望迁移到机器人控制、长期规划等其他长程决策场景。
对AGI的发展而言，WebResearcher通过模拟人类研究者的核心工作流，推动了AI从"信息检索者"向"知识建筑师"的转变，为构建真正具备自主学习与创造能力的通用智能体铺平了道路。

总结：拥抱迭代合成的新时代

WebResearcher不是一次渐进式的改良，而是一场由第一性原理驱动的范式革命。它深刻地认识到，当"量变"积累到一定程度，原有的架构终将触及天花板。唯有回归"如何进行有效研究"这一本质问题，重新设计智能体的底层运行逻辑，才能实现真正的"质变"。

IterResearch通过将研究过程解耦为"探索"与"合成"两个相辅相成的阶段，创造性地解决了长程推理的可持续性难题。实验结果表明，IterResearch在多项基准测试上达到了state-of-the-art性能，甚至超越了前沿闭源系统，验证了迭代合成范式在长程推理任务中的有效性。

值得注意的是，IterResearch范式产生的训练数据能显著提升传统单上下文方法的性能，这表明其设计理念对整个AI智能体生态具有广泛的赋能作用。这种"架构即数据"的良性循环，将加速整个领域的进步。

WebResearcher：从线性累积到迭代进化，重塑AI研究范式的三大支柱

长程智能体的"范式瓶颈"——从量变到质变的临界点

解构革命——IterResearch的MDP内核与工程实现

实证革命——数据与行为分析揭示的统治力

支撑革命——数据引擎与推理框架的协同创新

影响革命——Benchmark统治力与行业启示

总结：拥抱迭代合成的新时代

相关资讯

阿里通义深夜炸场：全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源，文本、图像、音视频全统一

谨以此文，向飞天奖的AI整活视频「致敬」

消息称字节跳动 8 位数年薪挖走阿里通义千问技术负责人周畅，十多个人跟着跳槽