AI在线 AI在线

WebResearcher:从线性累积到迭代进化,重塑AI研究范式的三大支柱

大家好,我是肆〇柒。 本文一篇来自阿里巴巴通义实验室(Tongyi Lab, Alibaba Group)的研究,是通义 Deepresearch 发布的系列研究之一。 这篇论文不仅推出了一个名为WebResearcher的新型AI智能体,更重要的是,它提出了一种名为"IterResearch"的全新范式,期望从根本上解决长程推理任务中的核心瓶颈。

WebResearcher:从线性累积到迭代进化,重塑AI研究范式的三大支柱

大家好,我是肆〇柒。本文一篇来自阿里巴巴通义实验室(Tongyi Lab, Alibaba Group)的研究,是通义 Deepresearch 发布的系列研究之一。

这篇论文不仅推出了一个名为WebResearcher的新型AI智能体,更重要的是,它提出了一种名为"IterResearch"的全新范式,期望从根本上解决长程推理任务中的核心瓶颈。

在人工智能向通用智能(AGI)迈进的征途中,让模型从被动的知识消费者,转变为能主动探索、验证与合成新知识的研究者,已成为一个关键转折点。近年来,"深度研究"(Deep Research)智能体的兴起,正是这一趋势的集中体现。然而,当任务复杂度持续攀升,当前主流系统所依赖的"单上下文线性累积"范式正日益显露出其结构性瓶颈——认知工作区被历史信息淹没,早期错误如病毒般持续污染后续推理。

在此背景下,阿里巴巴通义实验室推出的WebResearcher,并非一次简单的性能优化,而是一场针对长程智能体底层逻辑的范式革命。其核心贡献"IterResearch"通过将研究过程重构为一个可迭代、可重置的循环,从根本上解决了旧范式的两大顽疾:"认知工作区窒息"与"不可逆噪声污染"。这不仅带来了性能上的飞跃,更重新定义了我们构建下一代AI智能体的方式。

WebResearcher:从线性累积到迭代进化,重塑AI研究范式的三大支柱

WebResearcher 与顶尖深度研究智能体的性能对比

上图直观展示了这一革命性突破:在被誉为"人类最后的考试"(Humanity's Last Exam, HLE)的顶级学术挑战中,WebResearcher-heavy(使用Qwen3-235B-A22B作为骨干模型的版本)以**36.7%的准确率大幅领先第二名DeepSeek-V3.1(29.8%);在复杂的网页导航任务BrowseComp-en上,它达到51.7%**的准确率,与OpenAI的闭源系统打成平手,同时将最佳开源系统DeepSeek-V3.1(30.0%)远远抛开21.7个百分点。这些数据清晰表明,WebResearcher已建立起不可忽视的性能壁垒。

长程智能体的"范式瓶颈"——从量变到质变的临界点

回顾近期开源与闭源领域涌现的代表性深度研究智能体,无论是OpenAI的Deep Research、Google的Gemini Deep Research,还是WebThinker、WebSailor等开源项目,它们普遍采用了一种看似直观的"单上下文线性累积"架构。在这种模式下,智能体每一步的思考、工具调用结果和检索到的信息,都会被无差别地追加到一个不断膨胀的上下文窗口中。

这一范式在解决中等复杂度问题时取得了显著成功,是AI Agent能力演进过程中不可或缺的"量变"阶段。然而,随着任务向多跳、跨域、长周期的方向发展,这种线性累积的弊端愈发明显。首先,是"认知工作区窒息"(Context Suffocation):随着上下文窗口被历史信息填满,留给模型进行深度推理的空间急剧压缩,迫使智能体在信息尚未充分消化时就做出仓促结论。其次,是"不可逆噪声污染"(Irreversible Noise Contamination):一旦引入无关信息或出现初始判断错误,这些"噪声"会永久滞留在上下文中,无法被修正或过滤,导致后续所有推理都建立在错误的基础之上,形成雪崩式的误差传播。

WebResearcher:从线性累积到迭代进化,重塑AI研究范式的三大支柱

在 HLE、BC-EN 和 BC-ZH 基准上,不同智能体的核心对比结果

上表显示,在HLE基准测试中,单上下文智能体(Mono-Agent)的准确率仅为18.7%,而采用IterResearch范式的WebResearcher-30B-A3B则达到28.8%,差距高达10.1个百分点。这一定量证据有力地证明,旧范式的缺陷已无法通过简单的模型升级或数据扩充来解决。

这两个缺陷揭示了一个深刻的悖论:智能体越是努力搜集信息来解决问题,其用于处理信息的推理能力反而越弱。这标志着行业已抵达一个必须进行"范式转移"的临界点。WebResearcher的价值,正在于它没有选择在旧范式上修修补补,而是彻底颠覆了研究过程的建模方式,提出了一套名为"IterResearch"(Iterative Deep-Research Paradigm的缩写)的全新架构,开启了一场从"线性累积"到"迭代合成"的深刻变革。

解构革命——IterResearch的MDP内核与工程实现

要理解IterResearch的革命性,最直观的方式是对比其与传统范式的工作流差异。

WebResearcher:从线性累积到迭代进化,重塑AI研究范式的三大支柱

“迭代式深度研究范式”与主流“单语境范式”的对比示意图

上图清晰地展示了这一点。左侧的传统范式如同一条不断增粗的河流,所有信息汇成一股洪流,最终因体量过大而变得迟缓浑浊;右侧的IterResearch则像一个精密的循环系统,每一圈都进行提炼与净化,确保流动的是高纯度的"知识精华"。

这一精妙设计的理论基石,是将整个研究过程形式化为一个马尔可夫决策过程(Markov Decision Process, MDP)。在每个研究轮次 ,智能体的状态  被严格限定为三个核心组件:

1. 原始问题(Question):贯穿始终的研究目标。

2. 进化报告(Report_{i-1}):上一轮生成的、融合了所有关键发现的摘要。

3. 最新工具响应(Tool Response_{i-1}):上一轮动作的直接反馈。

这种精简状态的设计,完美满足了MDP的马尔可夫性——当前决策仅依赖于当前状态,而非冗长的历史轨迹。状态间的转换通过一个"重建"函数完成:丢弃临时的思考草稿和过时的交互细节,只保留经过提炼的Report和最新的Tool Response,从而为下一轮推理构建一个轻盈、聚焦的认知工作区。

在工程实现上,IterResearch通过一套结构化的元信息框架来指导每一轮的行为:

  • Think:这是本轮的"认知草稿",智能体在此分析当前状态、反思进展并规划下一步。它的存在保证了推理的透明性和完整性,但关键在于,Think的内容不会进入下一个状态,避免了思维碎片对后续工作的干扰。
  • Report:这是整个范式的灵魂所在,扮演着"中央记忆"和"知识蒸馏器"的双重角色。智能体并非简单地将新发现追加到报告末尾,而是必须将其与现有知识进行主动整合,解决潜在冲突,更新结论,生成一份连贯、高密度的摘要。例如,当新检索到的信息与现有知识矛盾时,智能体需评估证据强度并更新报告。通过强制性合成,Report始终保持紧凑(通常小于500 tokens),确保后续轮次有充足空间进行深度推理。这个强制性的"合成"步骤,是阻断噪声、实现知识提纯的核心机制。
  • Action:基于Think的分析和Report的总结,智能体决定采取具体行动,即调用外部工具(如搜索、浏览、代码执行)或给出最终答案。

这一设计带来了优势:无论研究进行多少轮,智能体的认知工作区大小恒定,推理能力永不衰减,实现了理论上"无界"的研究深度。同时,通过Report的迭代更新,早期错误可以被识别和修正,噪声被有效过滤,整个研究过程呈现出"单调信息增益"的良性进化态势。

更值得注意的是,这一范式为训练方法带来了创新空间。在训练过程中,IterResearch采用拒绝采样微调(Rejection Sampling Fine-Tuning)策略,严格筛选仅保留最终答案与参考答案完全匹配的轨迹进行训练,确保模型学习到端到端正确的推理过程。这意味着,即使某条轨迹前90%的推理正确,但最终答案错误,整条轨迹也会被"拒绝"。这种"结果导向"的筛选确保了模型学习到的是端到端正确的推理过程,而非部分正确的片段。

此外,迭代范式天然产生的多轮次样本为强化学习提供了丰富素材。每个研究问题可产生∑gG=1 T(i)g个训练样本,实现了显著的数据放大效应,这是单上下文方法无法企及的优势。然而,可变长度轨迹的训练挑战需要特殊处理,IterResearch采用最小损失下采样技术:这一技术确保了分布式训练稳定性,同时最小化数据损失(通常<1%),是实现高效训练的关键工程细节。

通过Group Sequence Policy Optimization (GSPO),IterResearch能够优化多轮次推理策略。在这一框架下,所有∑gG=1 Tg轮次形成一个训练组,实现高效的批量训练,同时保持组级别的优势归一化。这种设计与传统GSPO不同——传统方法将每条轨迹单独处理,而IterResearch利用轨迹的自然分解,将每轮视为独立训练样本,同时保持所有轮次的组级优势归一化,最大化数据利用效率,确保在不同研究深度上实现均衡学习,为长程推理提供了坚实的训练基础。

实证革命——数据与行为分析揭示的统治力

理论的优势需要实验的检验。为了剥离模型、数据等因素的影响,研究团队进行了严谨的消融实验。

WebResearcher:从线性累积到迭代进化,重塑AI研究范式的三大支柱

在 HLE、BC-EN 和 BC-ZH 基准上,不同智能体的核心对比结果

上表对比了三种配置:基础的"Mono-Agent"(单上下文)、使用IterResearch训练数据的"Mono-Agent+ Iter",以及完整的"WebResearcher"(迭代范式)。

结果显示,"Mono-Agent+ Iter"相比基础版有稳定提升,这证明了WebFrontier数据引擎本身具有普适价值,能增强任何模型的工具使用能力。然而,最关键的差距体现在"Mono-Agent+ Iter"与"WebResearcher"之间。例如,在HLE基准上,WebResearcher-30B-A3B以28.8%的成绩领先"Mono-Agent+ Iter"25.4%。这一"决定性优势"无可辩驳地证明,性能的飞跃主要源于

架构范式本身的优越性,而非仅仅是数据质量的提升。旧范式下的线性累积,终究无法克服其内在的"语境退化"和"不可逆错误传播"两大致命伤。

更令人信服的是对智能体行为的分析。在以学术问答为主的HLE基准上,智能体策略高效而精准,平均仅需4.7个回合即可解决问题,且大量使用学术文献搜索(Scholar)工具。而在需要复杂网页导航的BrowseComp基准上,智能体展现出了惊人的持久力,平均每个任务耗时高达61.4个回合,搜索(Search)和页面访问(Visit)成为主导工具。这种根据任务本质自适应调整研究策略的能力,正是IterResearch赋予智能体的高级认知特征,是被"窒息"工作区所束缚的旧范式智能体难以企及的。

特别值得注意的是工具调用模式的差异:在HLE任务中,Scholar工具占所有工具调用的25.4%,反映了对专业学术资源的精准利用;而在BrowseComp任务中,Search和Visit工具分别占56.5%和39.7%,共同构成了96%以上的工具调用。这清晰表明,IterResearch能够根据任务需求动态调整其工具使用策略,实现真正的"任务感知"行为。

支撑革命——数据引擎与推理框架的协同创新

一场成功的革命,离不开充足的"弹药"和高效的"战术"。WebResearcher的成功,还得益于两大关键支撑:为其"造血"的数据引擎WebFrontier,以及实现测试时扩展的推理框架Research-Synthesis。

WebResearcher:从线性累积到迭代进化,重塑AI研究范式的三大支柱

多智能体系统驱动的三阶段数据合成流程总览

上图清晰展示了WebFrontier的三阶段闭环流程:从原始语料库开始,经过"相关性分组"形成"复合单元",再由ItemWriter Agent生成初始问答对;随后进入迭代循环,工具增强的ItemWriter Agent不断升级问题复杂度;最后通过多阶段质量控制确保数据质量。

WebFrontier直面高质量长程任务数据稀缺的行业难题。其创新之处在于一个三阶段的闭环流程:种子生成、工具增强的复杂度升级和严格的质量控制。其中最核心的是"自举"(refinement loop)机制:一个配备了搜索、浏览、代码解释器等工具的智能体,能够将一个简单的种子问题,通过四个关键步骤系统性地升级为复杂的、需要多源信息合成的研究问题:

1. 知识扩展:查询外部源拓宽问题范围。例如,将"量子计算的基本原理"扩展为"量子纠错码在超导量子计算机中的实现挑战及其对Shor算法的影响"。

2. 概念抽象:提炼高层原理、识别跨域关系。如从具体实验数据中归纳出"量子退相干时间与量子比特数量的指数关系"。

3. 事实验证:通过多源交叉验证确保答案准确性,同时比对arXiv论文、权威教科书和实验数据集。

4. 计算公式化:利用Python环境创建需定量计算的问题,如"基于公开的LIGO数据,计算GW150914事件中黑洞合并释放的能量相当于多少个太阳质量"。

这一过程本身就模拟了人类研究者的思维方式,生成的数据不仅规模大、质量高,而且天然契合IterResearch的"探索-合成"循环理念。更关键的是,WebFrontier产生的训练数据能显著提升任何模型(包括旧范式)的工具使用能力,凸显了新范式对整个生态的赋能作用。

值得注意的是,WebFrontier的数据生成过程与IterResearch范式高度一致,都遵循"探索-合成-再探索"的循环逻辑。这种内在一致性确保了训练数据与推理范式的完美匹配,是性能飞跃的隐藏关键。在质量控制阶段,WebFrontier采用双重验证机制确保数据质量:

  • 基线验证:QuestionSolver Agent在无工具模式下尝试回答,过滤掉过于简单的问题
  • 高级验证:同一Agent在工具增强模式下重新尝试,仅保留能被工具增强型Agent解决但基线模型无法解决的问题

此外,SimilarityScorer Agent会过滤与现有数据语义冗余的新生成对,保持数据集多样性。这种精准定位"能力间隙"(capability gap)的机制,确保了生成的数据既具有挑战性又可解,为训练高质量智能体提供了坚实基础。

Research-Synthesis框架则解决了测试时扩展的难题。直接聚合多条完整研究轨迹的上下文成本极高。该框架的巧妙之处在于,利用"最终报告"作为高密度信息载体。

WebResearcher:从线性累积到迭代进化,重塑AI研究范式的三大支柱

推理—综合框架图解

上图生动展示了这一过程:在"并行研究"阶段,多个Research Agent独立探索,各自生成一份浓缩了全部推理路径的报告;在"集成综合"阶段,一个专门的"综合代理"(Synthesis Agent)只需阅读这些报告,即可融合不同视角,得出更全面、稳健的结论。

WebResearcher:从线性累积到迭代进化,重塑AI研究范式的三大支柱

Reason-Synthesis Framework 中 n 值的影响

上图显示,随着并行智能体数量  的增加,性能持续提升,但存在明显的边际效益递减。当  从1增加到8时,HLE准确率从28.8%跃升至35.65%,但  时仅微增至36.7%。这为实际部署提供了清晰的成本-收益权衡方案,使架构师能够在性能提升与计算成本之间找到最佳平衡点。

深入分析上图揭示的规律表明,8个并行智能体已能捕获绝大多数的性能增益,为实际部署提供了明确的成本效益拐点。这种"边际效益递减"规律对系统架构师设计生产环境具有直接指导价值,而不仅是学术观察。

WebResearcher配备了四类专业工具,每类工具都经过精心设计以支持高效研究:

  • Search工具:支持批量查询,返回每个查询的前10个结果,包含标题、摘要和URL,便于快速评估相关性
  • Scholar工具:提供学术文献的作者、出版 venue 和引用计数等元数据,支持高效学术研究
  • Visit工具:基于Jina.ai实现目标导向的网页内容提取,代理提供URL和提取目标(如"查找实验结果"),工具首先检索完整内容,然后使用Qwen3基于指定目标生成聚焦式摘要,避免信息过载
  • Python工具:在沙盒环境中执行代码,支持数据分析和可视化库,所有输出明确打印以确保计算结果清晰呈现

特别是Visit工具的"目标导向摘要"机制,直接解决了传统网页浏览中信息过载的问题,是支撑IterResearch范式的关键基础设施。这些工具系统的设计细节,展现了WebResearcher工程实现的成熟度,使其能够处理真实的长程研究任务。

影响革命——Benchmark统治力与行业启示

在6项极具挑战性的基准测试中,WebResearcher展现了统治级的表现,为这场范式革命提供了最强有力的背书。这些结果不仅体现在绝对性能上,更体现在多维度的适应性上。

WebResearcher:从线性累积到迭代进化,重塑AI研究范式的三大支柱

在通用网页导航与推理基准测试中的表现

WebResearcher:从线性累积到迭代进化,重塑AI研究范式的三大支柱

在面向目标的复杂网络任务基准测试中的结果

上表全面展示了WebResearcher在不同任务类型上的表现。在通用网络导航与推理基准(HLE、BrowseComp)上,WebResearcher-heavy取得了**36.7%的准确率,大幅超越了DeepSeek-V3.1(29.8%)和OpenAI Deep Research(26.6%),彰显了其在深度知识合成方面的绝对优势。在复杂的网页导航任务BrowseComp-en上,它达到了51.7%**的准确率,与OpenAI的闭源系统持平,同时将最佳开源系统DeepSeek-V3.1(30.0%)甩开21.7个百分点。在中文网页导航任务BrowseComp-zh上,它同样表现出色,达到56.8%的准确率,接近OpenAI-o3的58.1%,显著优于DeepSeek-V3.1的49.2%。这些结果证明,IterResearch通过结构化的合成过程,能够有效处理跨语言信息源,避免了单上下文系统在积累多语言内容时常见的混淆问题。

复杂目标导向网络任务(GAIA、Xbench-DeepSearch、Frames)上,WebResearcher同样展现出卓越能力。在GAIA基准上,它以75.7%的准确率超越所有评估系统,包括Claude-4-Sonnet(68.3%)和OpenAI-o3(70.5%),领先优势高达9.7个百分点。在Xbench-DeepSearch上,它达到73.0%的准确率,超越DeepSeek-V3.1(71.2%)和其他开源替代方案。在Frames基准上,它以85.1%的准确率领先DeepSeek-V3.1(83.7%)和OpenAI-o3(84.0%)。

这些数据背后揭示了一个重要规律:在需要复杂多步推理的任务中,IterResearch的优势更加显著。这正是因为这些任务最能体现其核心价值——通过周期性合成和工作区重建,维持高质量推理能力于整个研究过程。相比之下,单上下文系统随着研究轮次增加,性能会逐渐下降,这在BrowseComp任务中尤为明显(平均61.4轮),而IterResearch仍能保持稳定输出。

这一成功带来的启示深远:

  • 研究者而言,未来的竞争焦点将从单纯的模型规模竞赛,转向智能体架构的创新。IterResearch提供了一个可复用的优秀模板。
  • 系统架构师而言,"迭代合成"和"周期性知识蒸馏"的思想具有极强的普适性,有望迁移到机器人控制、长期规划等其他长程决策场景。
  • AGI的发展而言,WebResearcher通过模拟人类研究者的核心工作流,推动了AI从"信息检索者"向"知识建筑师"的转变,为构建真正具备自主学习与创造能力的通用智能体铺平了道路。

总结:拥抱迭代合成的新时代

WebResearcher不是一次渐进式的改良,而是一场由第一性原理驱动的范式革命。它深刻地认识到,当"量变"积累到一定程度,原有的架构终将触及天花板。唯有回归"如何进行有效研究"这一本质问题,重新设计智能体的底层运行逻辑,才能实现真正的"质变"。

IterResearch通过将研究过程解耦为"探索"与"合成"两个相辅相成的阶段,创造性地解决了长程推理的可持续性难题。实验结果表明,IterResearch在多项基准测试上达到了state-of-the-art性能,甚至超越了前沿闭源系统,验证了迭代合成范式在长程推理任务中的有效性。

值得注意的是,IterResearch范式产生的训练数据能显著提升传统单上下文方法的性能,这表明其设计理念对整个AI智能体生态具有广泛的赋能作用。这种"架构即数据"的良性循环,将加速整个领域的进步。

相关资讯

阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一

9 月 23 日消息,又是熟悉的深夜,阿里云今日发布并开源了全新的 Qwen3-Omni、Qwen3-TTS,以及对标谷歌 Nano Banana 图像编辑工具的 Qwen-Image-Edit-2509。 Qwen3-Omni 是业界首个原生端到端全模态 AI 模型,能够处理文本、图像、音频和视频多种类型的输入,并可通过文本与自然语音实时流式输出结果,解决了长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。 Qwen3-Omni 是原生端到端的多语言全模态基础模型,其核心特性主要包括:跨模态最先进表现:通过早期以文本为核心的预训练和混合多模态训练,模型具备原生多模态能力。
9/23/2025 9:33:10 AM
问舟

谨以此文,向飞天奖的AI整活视频「致敬」

AI好好用报道编辑:杨文5款对口型的AI产品,总有一款适合你。AI 最大的受害者,原来是娱乐圈的明星们。咋回事呢?前段时间,飞天奖官方整了个花活儿,让明星和电视剧中的 AI 角色合唱了一首《中国梦・我的梦》。那效果,简直一言难尽……(视频来源:B 站博主神仙颜颜_)视频链接:「扎心」:这个东西一端上来就有种淡淡的疯感。台下明星笑得最真心的一次。天呐唐嫣那个... 我都想替她报警了。每一个都好离谱又恐怖,李沁都没牙齿了。不会整就不要整啊,太抽象了,我真的是哈哈哈哈哈哈哈。第一个胡歌出来我就没绷住。笑死我了,满脑子都是
10/8/2024 6:14:00 PM
AI好好用

消息称字节跳动 8 位数年薪挖走阿里通义千问技术负责人周畅,十多个人跟着跳槽

原阿里通义千问大模型技术负责人周畅(花名:钟煌)于 7 月 18 日被曝将离职创业,然而在 10 月 23 日,就有消息称周畅已经低调加入了字节跳动。(第一财经)
12/6/2024 1:26:57 PM
汪淼
  • 1