揭秘Fathom-DeepResearch：4B小模型如何实现媲美GPT-4o的深度研究能力

揭秘Fathom-DeepResearch：让小模型也能做深度研究的秘密武器论文链接：：、研究背景：为什么我们需要更聪明的搜索助手？想象一下，你想了解一个复杂的问题，比如"某个体育赛事的历史背景和相关人物"，你会怎么做？可能需要在搜索引擎上反复查询，打开无数网页，然后自己整理信息。

揭秘Fathom-DeepResearch：让小模型也能做深度研究的秘密武器

论文链接：https://arxiv.org/pdf/2509.24107v1
代码链接：https://github.com/FractalAIResearchLabs/Fathom-DeepResearch

一、研究背景：为什么我们需要更聪明的搜索助手？

想象一下，你想了解一个复杂的问题，比如"某个体育赛事的历史背景和相关人物"，你会怎么做？可能需要在搜索引擎上反复查询，打开无数网页，然后自己整理信息。现在的大语言模型虽然很聪明，但在处理这类需要深度调研的任务时，还是有点力不从心。

这篇论文要解决的核心问题就是：如何让小型语言模型（只有40亿参数）也能像人类研究员一样，通过联网搜索、多轮推理，最终生成一份详实的研究报告？

目前的开源系统面临几个痛点：

训练数据不够硬核：现有的数据集（如TriviaQA）问题太简单，模型甚至不用搜索就能答对
工具调用不稳定：模型在多轮搜索中容易"失控"，要么重复调用同一个搜索，要么乱调用
缺乏综合能力：大多数系统只擅长回答封闭式问题（有标准答案的），但对开放式探索性问题（需要综合多方信息）表现不佳

图片

作者的核心贡献可以概括为三个关键创新：

DuetQA数据集：通过多智能体自我对弈生成了5000个高质量问答对，每个问题都必须通过实时搜索才能回答（不能靠模型的记忆蒙混过关）
RAPO算法（奖励感知策略优化）：这是对现有强化学习算法GRPO的改进，解决了多轮工具调用时训练不稳定的问题，让模型能稳定地进行超过20次工具调用
可控的步骤级奖励机制：不仅奖励"答对了"，还细致地评估每一步搜索是否有价值——是探索新信息还是在重复无用功，从而引导模型形成更高效的搜索策略

二、相关工作：站在巨人的肩膀上

论文梳理了当前深度搜索领域的几类工作：

闭源商业系统 如OpenAI的DeepResearch、Google的Gemini等，表现强劲但不开源，普通研究者无法复现和改进。

开源尝试 包括WebSailor、Jan-Nano、ZeroSearch等模型，虽然做出了努力，但在复杂任务上与闭源系统还有明显差距。这些系统普遍存在的问题是：

训练数据质量不高，很多问题可以通过简单的一两次搜索解决
强化学习训练不稳定，模型容易学坏（比如疯狂重复调用工具但不产生有用结果）
缺乏对长链推理的有效控制机制

现有数据集的局限 像HotpotQA、2WIKI这类多跳问答数据集，虽然标榜"多跳推理"，但实际上很多问题可以通过模型的内部知识直接回答，或者只需要访问维基百科就够了。真实世界的搜索场景要复杂得多——信息分散在各种网站上，存在噪音，需要交叉验证。

图片

三、核心方法：两阶段训练+智能奖励设计

Fathom-DeepResearch系统由两个核心模型组成：

3.1 Fathom-Search-4B：会搜索的推理模型

这个模型的任务是像侦探一样在互联网上寻找证据。它有两个工具：

search_urls（网页搜索）：输入查询词，返回相关网页列表及摘要query_url（定向提取）：打开某个网页，根据特定目标提取有用信息

训练分两个阶段进行：

Stage 1：学会基本的搜索能力在DuetQA数据集上训练10个epoch，使用RAPO算法。这个阶段的重点是让模型学会：

正确使用工具（格式规范）
能够通过搜索找到答案
避免训练崩溃（GRPO容易出现的问题）

训练目标函数结合了格式奖励和答案准确性：

揭秘Fathom-DeepResearch：4B小模型如何实现媲美GPT-4o的深度研究能力

Stage 2：学会高效的长链推理继续训练2个epoch，但这次使用了可控的步骤级奖励。这个阶段的数据混合了DuetQA、数学推理数据和MuSiQue多跳问答。

关键创新在于奖励函数的设计。系统会用GPT-4.1给每个工具调用打标签：

对于search_urls：

UNIQUESEARCH（探索新信息）：搜索之前没见过的实体或事实
REDUNDANTSEARCH（重复搜索）：和之前的查询高度相似

对于query_url：

EXPLORATION（探索）：第一次访问某个网页
VERIFICATION（验证）：交叉验证已有信息（允许有限次数）
REDUNDANTQUERY（冗余查询）：超过验证次数限制的重复查询

基于这些标签，奖励函数变成：

揭秘Fathom-DeepResearch：4B小模型如何实现媲美GPT-4o的深度研究能力

3.2 RAPO：让训练不再崩溃的秘密

揭秘Fathom-DeepResearch：4B小模型如何实现媲美GPT-4o的深度研究能力

回放缓冲：为每个问题维护一个"最佳答案库"。如果某次训练所有尝试都失败了，就从库里抽一个成功案例混进去，避免方差归零。

图片

从图中可以看到，GRPO的熵值和梯度范数快速下降（意味着模型失去探索能力），而RAPO能保持稳定的训练信号。

3.3 Fathom-Synthesizer-4B：会写报告的综合模型

第二个模型的任务是把搜索轨迹变成一份可读的研究报告。它采用"先规划后撰写"的策略：

规划阶段（在标签内，用户看不到）：

问题分解：把大问题拆成若干子问题
证据映射：将搜索到的每个网址和内容对应到相关章节
洞察策略：规划如何从证据中提炼观点

撰写阶段（生成实际报告）：

执行摘要：总览全文
主体章节：按照分解的子问题组织，每个关键论断都标注引用来源
引用列表：列出所有引用的网址

训练数据（DeepResearch-SFT）从GPT-5蒸馏而来，包含2500个开放式问题及其完整的规划+报告对。为了处理长文本，使用YaRN技术将Qwen3-4B的上下文窗口从40K扩展到65K。

图片

四、实验效果：小模型也能打败大模型

4.1 深度搜索任务上的表现

在五个主流深度搜索基准测试上（SimpleQA、FRAMES、WebWalker、Seal0、MuSiQue），Fathom-Search-4B取得了开源模型中的最佳成绩：

SimpleQA（真实世界问答）：90.0%准确率，超过了所有开源竞争对手，甚至比GPT-4o（搜索版）还高5.6个百分点

WebWalker（长链推理）：50.0%准确率，比第二名II-Search-4B高出9.2个百分点

FRAMES（多帧推理）：64.8%准确率，显著领先

更有意思的是，在一些任务上，这个40亿参数的小模型甚至能接近甚至超越o3这样的超大模型（无搜索版本）。

4.2 通用推理能力依然强劲

为了验证模型没有"偏科"（只会搜索不会推理），作者还在四个通用推理基准上测试了Fathom-Search-4B：

GPQA-Diamond（研究生级科学问题）：60.1%
MedQA（医学问答）：75.4%
AIME-25（数学竞赛）：70.0%

这些成绩证明，模型在获得搜索能力的同时，原有的推理能力没有退化。

图片

从工具调用分布图可以看出，DuetQA数据集确实更"硬核"——o3模型在这个数据集上平均需要3.3次搜索才能答对，分布呈长尾；而在SimpleQA上平均只需1.9次。这证明了数据集设计的有效性。

4.3 深度研究报告生成

在DeepResearch-Bench（开放式研究报告生成基准）上，Fathom-DeepResearch的整体得分为45.47，超过了Claude-3.7、Perplexity Deep Research、Grok等商业系统，仅次于Gemini-2.5-Pro和OpenAI DeepResearch。

具体指标上：

RACE综合评分：45.47（考察全面性、深度、可读性）
引用准确率：56.1%（保证引用的来源真实可靠）
有效引用数：38.3（足够的证据支撑）

考虑到这是一个40亿参数的开源模型，这个成绩相当亮眼。

图片

左图展示了准确率与工具调用次数的关系，右图展示了准确率与回答长度的关系。可以看到Fathom-Search-4B（Stage-2）在准确率和效率上都取得了最佳平衡。

4.4 消融实验：每个组件都很重要

RAPO vs GRPO：如表3所示，使用RAPO训练的模型在所有任务上都优于GRPO，且平均生成长度更短（5000 vs 9000 tokens），说明RAPO既提升了准确率，又提高了效率。

可控步骤级奖励的作用：如表4所示，引入步骤级奖励后，WebWalker任务的准确率从43.2%提升到50.0%，同时平均生成长度从5500增加到14500 tokens。这说明模型学会了在需要时进行更深入的探索。

图片

从训练曲线可以看出：

使用可控步骤级奖励时，模型的回答长度稳步增长到14000 tokens，说明学会了长链推理
使用普通奖励时，长度在6000 tokens就饱和了，无法进一步提升
RAPO相比GRPO，训练过程更平滑，没有大幅波动

五、论文总结：开源深度研究的新里程碑

这篇论文的核心价值在于：证明了小型语言模型（40亿参数）通过精心设计的训练流程，也能在复杂的深度研究任务上与大型商业模型一较高下。

三个关键要素缺一不可：

高质量数据：DuetQA通过多智能体自我对弈，生成了真正需要联网搜索才能回答的问题，避免了模型"走捷径"
稳定训练：RAPO算法解决了多轮工具调用场景下的训练不稳定问题，让长链推理成为可能
智能奖励：步骤级奖励机制不仅关注最终答案，还细致评估每一步操作的价值，引导模型形成高效的搜索策略

局限性也值得注意：作者坦诚地指出，当前系统在测试时的可扩展性有限——虽然训练时能学会长链推理，但推理时的表现提升有限。此外，同步训练流程在大规模应用时效率不高，未来需要转向异步框架。

从工程实践角度看，这个工作的意义在于：降低了深度研究能力的门槛。以前只有资源雄厚的大公司才能训练出具备这种能力的模型，现在普通研究者和开发者也能在40亿参数规模上实现类似功能。这对于推动AI民主化、加速相关应用落地都有重要价值。

未来的研究方向可能包括：如何进一步提升测试时的可扩展性？如何在更小的模型（比如10亿参数）上实现类似能力？如何让系统更好地处理多模态信息（图表、视频等）？这些都是值得探索的问题。

揭秘Fathom-DeepResearch：4B小模型如何实现媲美GPT-4o的深度研究能力

一、研究背景：为什么我们需要更聪明的搜索助手？

二、相关工作：站在巨人的肩膀上

三、核心方法：两阶段训练+智能奖励设计

3.1 Fathom-Search-4B：会搜索的推理模型

3.2 RAPO：让训练不再崩溃的秘密

3.3 Fathom-Synthesizer-4B：会写报告的综合模型

四、实验效果：小模型也能打败大模型

4.1 深度搜索任务上的表现

4.2 通用推理能力依然强劲

4.3 深度研究报告生成

4.4 消融实验：每个组件都很重要

五、论文总结：开源深度研究的新里程碑

相关资讯

GPT-5遭用户吐槽 “垃圾”：缩放定律失效，AGI梦渐行渐远？

OpenAI发布GPT-4.1系列模型：能力全面超越前代

OpenAI发布GPT-4.1系列模型，编码与多模态能力全面升级