20.3次工具调用的秘密：InfoAgent如何让信息检索真正"懂你"

大家好，我是肆〇柒。今天一起看看由东南大学、布朗大学与微软研究院联合推出的最新研究成果——InfoAgent。这项工作直指当前深度研究智能体领域的核心痛点，通过创新的数据合成管道和自托管搜索工具，成功让14B参数的模型在复杂研究任务上超越72B参数的竞品。

大家好，我是肆〇柒。今天一起看看由东南大学、布朗大学与微软研究院联合推出的最新研究成果——InfoAgent。这项工作直指当前深度研究智能体领域的核心痛点，通过创新的数据合成管道和自托管搜索工具，成功让14B参数的模型在复杂研究任务上超越72B参数的竞品。在信息过载的时代，这项研究或许能为我们带来真正"懂你"的信息检索体验。

想想看，当你在医疗研究中试图寻找"罕见病的最新治疗方案"，或在商业分析中探索"特定市场细分的最新消费者行为趋势"时，你是否曾遇到过这样的困境：普通搜索引擎返回大量相关但浅层的信息，却无法整合出真正有价值的答案？现有开源深度研究智能体(DRA)同样束手无策——它们平均仅进行5.4次(ASearcher)至9.5次(DeepDive)工具调用，而这类问题通常需要20次以上搜索才能解决。这意味着，当你面对需要多源信息整合的复杂研究问题时，当前开源DRA可能无法提供可靠答案。InfoAgent的研究探索，就是为了突破这一限制，让信息检索真正理解并解决你的复杂问题。

为什么"浅层搜索"总让你失望？

深度研究智能体(DRA)与普通搜索引擎或检索增强生成(RAG)系统有着本质区别：RAG将检索段落视为潜在变量，表现出高效、静态和局部检索的特点；而DRA则通过迭代方式与工具交互，实现灵活的多源信息整合，能够处理更复杂的长视野搜索任务。这一区别至关重要——当你面对需要整合多个信息源的复杂研究问题时，DRA的长视野搜索能力决定了你能否找到关键答案。

20.3次工具调用的秘密：InfoAgent如何让信息检索真正"懂你"

工具调用分布分析

上图直观揭示了问题所在：ASearcher数据集呈现出高度倾斜的工具调用分布，大部分示例需要零次或极少工具调用（平均5.4次，中位数1次）；DeepDive虽有更密集的工具调用分布（平均9.5次，中位数8次），但工具调用数量仍远低于实际需求。相比之下，InfoAgent数据集展现出显著更高的工具使用频率（平均20.3次）和更广分布，大量轨迹需要20-50次调用，甚至有非忽略比例超过100次。

这意味着什么？当你试图了解"1930年代出生于弗吉尼亚县(国会在1846年归还给该州并在1920年更名)的棒球投手首次亮相的球队"时，普通DRA可能只进行5-10次搜索就放弃或给出错误答案。ASearcher数据集就像浅尝辄止的网络冲浪者，而InfoAgent数据集则像专业研究员——它不满足于表面答案，而是不断深入挖掘，直到找到确凿证据。

瓶颈一：高质量训练数据的缺乏与InfoAgent的突破

要让DRA真正"懂你"，首先需要解决训练数据问题。InfoAgent通过创新的数据合成管道，系统性地增加了问题难度，确保模型必须进行长视野搜索才能找到答案。

20.3次工具调用的秘密：InfoAgent如何让信息检索真正"懂你"

多实体搜索问题的合成流程

上图展示了这一管道的核心机制：从维基百科实体构建结构化问题的完整流程。管道首先将原始实体转换为节点，每个节点包含实体名称、URL和从对应页面提取的事实集合；然后通过子树采样系统性地增加问题难度。

20.3次工具调用的秘密：InfoAgent如何让信息检索真正"懂你"

这种处理确保实体名称和具体日期/数字被替换为模糊对应物，使模型难以基于内部知识或直接搜索识别实体。例如，"哪位1992年获得诺贝尔奖的物理学家"变为"哪位1990年代初获得重要科学奖项的科学家"，迫使模型必须进行多步推理而非简单匹配。

20.3次工具调用的秘密：InfoAgent如何让信息检索真正"懂你"

子树提取算法通过随机选择节点并回溯到根节点的路径，逐步构建子树，确保问题难度的可控增加。这一算法确保了问题难度的系统性提升，是InfoAgent数据合成管道的核心环节。

这些设计带来的效果显著：InfoAgent在BrowseComp上的准确率从SFT阶段的4.7%提升至RL后的15.3%，在BrowseComp-ZH上从17.0%提升至29.2%。这意味着，在100个复杂研究问题中，InfoAgent能正确回答15个左右，而其他开源模型可能只能回答不到5个。在医疗研究或法律咨询等关键场景中，这10%的差距可能就是"找到救命方案"与"一无所获"的区别。

瓶颈二：搜索工具的质量与可控性——摆脱商业API的"黑盒"困境

即使拥有高质量训练数据，如果工具环境不佳，DRA性能仍会受限。现有研究往往依赖商业搜索API，导致检索过程隐藏在专有服务背后，行为不可控，且效率受外部速率限制和工具可用性约束。这不仅使智能体行为难以预测，也使训练和评估难以复现。另一些工作采用简单的维基检索器，其信息质量有限，无法处理需要最新网络信息的问题。

20.3次工具调用的秘密：InfoAgent如何让信息检索真正"懂你"

搜索工具工作流程

上图详细展示了InfoAgent搜索工具的完整工作流程，揭示了如何解决这一瓶颈。该工具提供两种功能：搜索功能返回相关URL和网页片段；浏览功能则允许深入调查特定URL的内容。

搜索功能的工作流程始于从搜索引擎（主要使用Google，Bing/Brave作为备用）获取初始结果；然后通过网络爬虫获取完整网页，分割为128 token短文本块；针对约15%无法爬取的网站，添加搜索引擎快照作为备用内容。为提升搜索结果质量，InfoAgent采用多级内容过滤机制：

1. 首先使用BM25算法检索前40块，快照作为查询检索前3块

2. 接着利用Qwen-3-Embedding-0.6B筛选前8块

3. Qwen-3-Reranker-0.6B筛选前3块

4. 最后由GPT-4o-mini生成不超过60词的简洁片段

这一多级过滤机制确保了搜索结果的精准性和相关性。浏览功能则获取2048 token长内容块，用于深度探索。

20.3次工具调用的秘密：InfoAgent如何让信息检索真正"懂你"

在 BrowseComp、BrowseComp-ZH 和 Xbench-DS 上，不同设置下训练和评估的模型的准确率和工具调用次数对比表明，跳过 SFT（冷启动监督微调）阶段，或者使用 Wiki Retriever 进行训练/评估的模型，表现较差。

上表数据直观展示了工具质量的重要性：当训练和推理均使用InfoAgent工具时，BrowseComp准确率达10.0%，BrowseComp-ZH达18.7%；仅SFT阶段使用优质工具时，准确率降至3.0%和15.8%；而使用Wiki检索器训练和推理时，准确率仅为1.0%和4.5%。这一10倍的性能差距凸显了优质搜索工具的决定性作用。

更令人惊讶的是，尽管所有训练数据均为英文，InfoAgent在中文基准测试中表现优异（BrowseComp-ZH达29.2%），展示了出色的跨语言泛化能力。这是一个关键的"啊哈时刻"：核心推理能力不依赖于语言特定知识，而更多基于对问题结构和逻辑关系的理解。对于多语言用户而言，这意味着无论你使用何种语言提问，InfoAgent都能提供高质量的复杂问题解决方案。

两阶段训练：从行为模仿到能力飞跃

InfoAgent采用两阶段训练方法：冷启动监督微调(SFT)和强化学习(RL)。下图直观展示了SFT冷启动对RL训练的关键影响：

20.3次工具调用的秘密：InfoAgent如何让信息检索真正"懂你"

强化学习训练过程比较

左图显示无SFT冷启动的初始指令模型几乎无法学习获得更高奖励（准确率提升有限），而SFT模型则能持续提升性能
中图表明SFT模型的工具调用次数显著更高
右图显示SFT模型的重复查询比例随训练明显下降，表明其学会了尝试不同查询获取更多信息

这一现象证实，深度研究需要规划、信息检索、回溯等复杂能力，充分的高质量SFT不可或缺。当模型没有SFT冷启动时，它不知道如何充分利用工具，重复查询比例高，工具调用次数低。

想象训练一个研究员却不教他基本研究方法——这就是没有SFT冷启动的情况。上图左侧显示，没有SFT冷启动的模型像无头苍蝇般乱撞，重复查询比例高，工具调用次数低；而SFT模型则像受过专业训练的研究员，逐步优化搜索策略，准确率持续提升。SFT阶段植入的长视野搜索行为，为RL阶段的性能飞跃奠定了基础。

在SFT阶段，InfoAgent在14k合成轨迹上微调Qwen3-14B，批大小128，学习率2e-5，训练2个周期，上下文长度32k tokens。表3分析了轨迹长度的影响：训练轨迹包含≥10次工具调用时，BrowseComp准确率达7.1%（但80%超出上下文）；而<10次工具调用时，准确率仅为2.8%。这表明模型需要长轨迹训练才能解决复杂任务，但过长轨迹可能导致上下文耗尽。

RL阶段进一步优化了SFT模型的推理驱动工具使用能力。研究采用难度筛选策略，选择pass@4在0.25-0.75之间的样本（5.7k样本），确保数据难度适中。RL阶段采用GRPO算法优化，以AdamW优化器，学习率1e-6，批大小128，训练5个周期。为加速训练并鼓励高效解决问题，响应被限制在16k tokens内。

RL训练后，InfoAgent在多个基准测试上显著提升：BrowseComp从4.7%提升至15.3%，BrowseComp-ZH从17.0%提升至29.2%，Xbench-DS从28.0%提升至40.4%。这一提升直接反映了两阶段训练方法的有效性——SFT阶段植入长视野搜索行为，为RL阶段的性能飞跃奠定基础。

棒球投手案例：一场智能推理的精彩演绎

论文中的附录提供了一个详细案例，展示了InfoAgent解决需要多步推理、整合历史地理与体育数据的复杂问题的能力：

问题："哪支大联盟棒球队是那位在1930年代出生于弗吉尼亚县(国会在1846年归还给该州并在1920年更名)的投手首次亮相的？"

这一问题看似简单，实则包含多重线索：历史地理信息（1846年归还、1920年更名的弗吉尼亚县）、时间线索（1930年代出生）、体育数据（近20次救援成功）。InfoAgent通过7步推理过程解决：

1. 地理线索破解：确定县为阿灵顿县（原亚历山德里亚县，1846年归还，1920年更名）

2. 初步搜索受挫：搜索"阿灵顿县弗吉尼亚1930年代出生的棒球投手"，但结果不匹配

3. 策略调整关键点：结合"近20次救援成功"线索，搜索"1950年代第三名近20次救援"，发现Roy Face和Hoyt Wilhelm，但出生地不符

4. 精确化搜索：将模糊的"1930年代"精确化为"1930年"，搜索"1930年阿灵顿县弗吉尼亚棒球"，找到Bill Dailey

5. 验证关键信息：浏览Bill Dailey维基百科页面确认：1935年5月13日生于阿灵顿县

6. 数据交叉验证：确认1963年记录21次救援（"近20次"），1961年8月17日首次亮相于克利夫兰印第安人队

20.3次工具调用的秘密：InfoAgent如何让信息检索真正"懂你"

棒球投手问题解决轨迹

上图展示了这一完整推理过程，特别突出了关键决策点。在Step 3中，当初始搜索结果不匹配时，InfoAgent没有放弃，而是巧妙地利用问题中的隐含线索"近20次救援"调整搜索策略，从宽泛搜索转向更精确的查询。在Step 4中，模型进一步精确化查询，将"1930年代"细化为"1930年"，并明确指定"弗吉尼亚"，最终成功定位目标实体Bill Dailey。

这种基于中间结果动态调整搜索策略的能力，正是InfoAgent解决复杂研究问题的核心优势。它不是机械地执行预设步骤，而是像人类研究员一样，根据已有信息不断调整研究方向，直至找到答案。当你试图了解类似问题时，普通搜索引擎会直接返回"1920年弗吉尼亚县"的地理信息，而不会关联到棒球历史。InfoAgent通过7步推理找到Bill Dailey和克利夫兰印第安人队，这正是你需要的深度研究能力。

实际价值：超越数字的真正意义

20.3次工具调用的秘密：InfoAgent如何让信息检索真正"懂你"

在深度研究基准上的评估

上表全面展示了InfoAgent与其他开源和专有模型在五个基准测试上的对比结果。InfoAgent在BrowseComp达到15.3%，在开源<15B参数模型中表现最佳，并超越了WebSailor-72B(12.0%)和MiroThinker-32B-DPO-v0.1(13.0%)等更大模型。在中文基准BrowseComp-ZH上，InfoAgent达到29.2%准确率，超越WebSailor-32B(25.5%)；在Xbench-DS上达到40.4%，在WebWalkerQA上达到52.7%，均优于同类模型。

这些数字背后的实际意义是什么？15.3%的准确率意味着，在100个复杂研究问题中，InfoAgent能正确回答15个左右，而其他开源模型可能只能回答不到5个。虽然看起来不高，但考虑到这些问题的复杂性（平均需要20.3次工具调用），这已经显著优于其他开源模型。在信息获取至关重要的场景中，这10%的差距可能就是"找到关键治疗方案"与"一无所获"的区别。

更值得注意的是，尽管所有训练数据均为英文，InfoAgent在中文基准上的出色表现（29.2%）展示了其强大的跨语言泛化能力。这揭示了一个重要洞见：核心推理能力不依赖于语言特定知识，而更多基于对问题结构和逻辑关系的理解。对于多语言用户而言，这意味着无论你使用何种语言提问，InfoAgent都能提供高质量的复杂问题解决方案。

两大瓶颈的解决方案

InfoAgent通过创新的数据合成管道和自托管搜索工具，有效解决了DRA领域的两大核心瓶颈：

数据合成管道采用实体树构建、实体模糊化三阶段处理和约束集优化，系统性增加问题难度，确保需要长视野搜索和多步推理，产生平均20.3次工具调用的高质量训练数据。这一管道的关键在于：它不是简单地增加工具调用次数，而是通过精心设计的问题结构，强制模型进行真正的多步推理。

自托管搜索工具提供精细控制的输出，避免商业API限制，采用多级过滤机制（BM25+嵌入模型+重排序+LLM提炼）确保内容质量，并通过缓存机制和混合服务策略优化系统性能。训练和推理使用优质工具带来显著性能提升，使InfoAgent在多个基准测试中超越更大规模的开源模型。

对开发者的实用启示

构建高质量DRA时，应关注以下关键点：

构建高质量训练数据：

确保问题需要多步推理而非浅层匹配：通过实体模糊化和约束集优化，确保问题无法通过简单搜索解决
监控工具调用链长度：目标平均20+次且分布广泛，避免数据过于简单
实施严格的可解性验证：使用先进模型测试问题难度，确保问题既具挑战性又可解决

投资搜索工具质量：

实现多级内容过滤机制：BM25基础过滤、嵌入模型语义匹配、重排序模型精炼
开发专用片段生成能力：不超过60词的精准摘要，确保信息密度和相关性
优化系统性能：缓存机制提高训练吞吐量，混合服务策略应对长尾问题

重视SFT冷启动：

针对复杂任务设计高质量SFT数据：确保模型首先学习正确的长视野搜索行为
混合长短轨迹训练：平衡性能与上下文限制，确保模型既能解决复杂问题又不会频繁耗尽上下文
优先植入长视野搜索行为：为RL阶段的性能飞跃奠定基础

超越当前局限

InfoAgent揭示了未来发展方向：突破上下文长度限制，采用原生长上下文窗口的基础模型和更先进的RL基础设施；拓展数据来源，从维基百科扩展到更广泛网络；探索过程奖励机制，优化奖励设计以提升训练效率；增强跨语言能力，开发多语言深度研究智能体。

特别值得注意的是，研究探索了过程奖励机制对RL训练的影响。通过存储问题涉及的实体和源网页URL，计算轨迹中目标实体的召回率作为额外奖励

20.3次工具调用的秘密：InfoAgent如何让信息检索真正"懂你"

不同方法计算的召回率分布情况

上图显示了三种召回率计算方法的分布差异：名称精确匹配(EM)、URL精确匹配(EM)和LLM评估。其中，LLM评估方法能获得更多的非零召回奖励。

20.3次工具调用的秘密：InfoAgent如何让信息检索真正"懂你"

不同奖励权重下的训练曲线

20.3次工具调用的秘密：InfoAgent如何让信息检索真正"懂你"

这一发现对理解RL训练机制具有重要启示：过程奖励虽能提升训练信号的丰富度，但在当前任务复杂度下，其对最终性能的提升有限。研究提出两个假设解释这一现象：(1)召回奖励添加到最终奖励中，但发现目标实体的确切步骤未获得明确的正向反馈，使模型难以从这些轨迹中学习；(2)训练数据集相对简单，正确性奖励已足够教会模型必要的技能。

让信息检索真正"懂你"

通过InfoAgent的实践，我们看到解决深度研究智能体的两大瓶颈——高质量训练数据和优质搜索工具——是提升DRA性能的关键。这些经验不仅适用于信息检索领域，也为构建能够真正与现实世界交互的智能体提供了重要启示。

InfoAgent的价值不仅在于技术指标的提升，更在于它让信息检索真正"懂你"：当你提出复杂问题时，它不会简单地返回表面相关但缺乏深度的答案，而是像一位经验丰富的研究员，通过多步推理、信息整合和策略调整，为你找到真正需要的答案。

在信息过载的时代，这种深度研究能力不是奢侈品，而是必需品。InfoAgent的实践表明，通过精心设计的数据合成管道和高质量工具环境，我们能够构建真正理解并解决复杂问题的智能体，让信息检索从"找到相关信息"迈向"解决实际问题"的新阶段。

InfoAgent的实践为我们指明了方向——通过高质量训练数据和优质搜索工具，我们可以构建真正理解你需求、能够深入挖掘复杂答案的智能体。这不仅是技术的进步，更是人机协作研究方式的革新。

20.3次工具调用的秘密：InfoAgent如何让信息检索真正"懂你"

为什么"浅层搜索"总让你失望？

瓶颈一：高质量训练数据的缺乏与InfoAgent的突破

瓶颈二：搜索工具的质量与可控性——摆脱商业API的"黑盒"困境

两阶段训练：从行为模仿到能力飞跃

棒球投手案例：一场智能推理的精彩演绎

实际价值：超越数字的真正意义

两大瓶颈的解决方案

对开发者的实用启示

超越当前局限

让信息检索真正"懂你"

相关资讯

Brave Search MCP Server：强大本地搜索，让信息获取更简单!

掌控 AI 智能体自主性：五级框架下的人机协作之道

OpenAI博士级「超级智能体」即将登场？与ChatGPT深度集成，可操控计算机