AI在线 AI在线

揭秘Fathom-DeepResearch:4B小模型如何实现媲美GPT-4o的深度研究能力

揭秘Fathom-DeepResearch:让小模型也能做深度研究的秘密武器论文链接::、研究背景:为什么我们需要更聪明的搜索助手? 想象一下,你想了解一个复杂的问题,比如"某个体育赛事的历史背景和相关人物",你会怎么做? 可能需要在搜索引擎上反复查询,打开无数网页,然后自己整理信息。

揭秘Fathom-DeepResearch:让小模型也能做深度研究的秘密武器

图片

  • 论文链接:https://arxiv.org/pdf/2509.24107v1
  • 代码链接:https://github.com/FractalAIResearchLabs/Fathom-DeepResearch

一、研究背景:为什么我们需要更聪明的搜索助手?

想象一下,你想了解一个复杂的问题,比如"某个体育赛事的历史背景和相关人物",你会怎么做?可能需要在搜索引擎上反复查询,打开无数网页,然后自己整理信息。现在的大语言模型虽然很聪明,但在处理这类需要深度调研的任务时,还是有点力不从心。

这篇论文要解决的核心问题就是:如何让小型语言模型(只有40亿参数)也能像人类研究员一样,通过联网搜索、多轮推理,最终生成一份详实的研究报告?

目前的开源系统面临几个痛点:

  • 训练数据不够硬核:现有的数据集(如TriviaQA)问题太简单,模型甚至不用搜索就能答对
  • 工具调用不稳定:模型在多轮搜索中容易"失控",要么重复调用同一个搜索,要么乱调用
  • 缺乏综合能力:大多数系统只擅长回答封闭式问题(有标准答案的),但对开放式探索性问题(需要综合多方信息)表现不佳

图片图片

作者的核心贡献可以概括为三个关键创新:

  1. DuetQA数据集:通过多智能体自我对弈生成了5000个高质量问答对,每个问题都必须通过实时搜索才能回答(不能靠模型的记忆蒙混过关)
  2. RAPO算法(奖励感知策略优化):这是对现有强化学习算法GRPO的改进,解决了多轮工具调用时训练不稳定的问题,让模型能稳定地进行超过20次工具调用
  3. 可控的步骤级奖励机制:不仅奖励"答对了",还细致地评估每一步搜索是否有价值——是探索新信息还是在重复无用功,从而引导模型形成更高效的搜索策略

二、相关工作:站在巨人的肩膀上

论文梳理了当前深度搜索领域的几类工作:

闭源商业系统 如OpenAI的DeepResearch、Google的Gemini等,表现强劲但不开源,普通研究者无法复现和改进。

开源尝试 包括WebSailor、Jan-Nano、ZeroSearch等模型,虽然做出了努力,但在复杂任务上与闭源系统还有明显差距。这些系统普遍存在的问题是:

  • 训练数据质量不高,很多问题可以通过简单的一两次搜索解决
  • 强化学习训练不稳定,模型容易学坏(比如疯狂重复调用工具但不产生有用结果)
  • 缺乏对长链推理的有效控制机制

现有数据集的局限 像HotpotQA、2WIKI这类多跳问答数据集,虽然标榜"多跳推理",但实际上很多问题可以通过模型的内部知识直接回答,或者只需要访问维基百科就够了。真实世界的搜索场景要复杂得多——信息分散在各种网站上,存在噪音,需要交叉验证。

图片图片

三、核心方法:两阶段训练+智能奖励设计

Fathom-DeepResearch系统由两个核心模型组成:

3.1 Fathom-Search-4B:会搜索的推理模型

这个模型的任务是像侦探一样在互联网上寻找证据。它有两个工具:

search_urls(网页搜索):输入查询词,返回相关网页列表及摘要query_url(定向提取):打开某个网页,根据特定目标提取有用信息

训练分两个阶段进行:

Stage 1:学会基本的搜索能力在DuetQA数据集上训练10个epoch,使用RAPO算法。这个阶段的重点是让模型学会:

  • 正确使用工具(格式规范)
  • 能够通过搜索找到答案
  • 避免训练崩溃(GRPO容易出现的问题)

训练目标函数结合了格式奖励和答案准确性:

揭秘Fathom-DeepResearch:4B小模型如何实现媲美GPT-4o的深度研究能力

Stage 2:学会高效的长链推理继续训练2个epoch,但这次使用了可控的步骤级奖励。这个阶段的数据混合了DuetQA、数学推理数据和MuSiQue多跳问答。

关键创新在于奖励函数的设计。系统会用GPT-4.1给每个工具调用打标签:

对于search_urls:

  • UNIQUESEARCH(探索新信息):搜索之前没见过的实体或事实
  • REDUNDANTSEARCH(重复搜索):和之前的查询高度相似

对于query_url:

  • EXPLORATION(探索):第一次访问某个网页
  • VERIFICATION(验证):交叉验证已有信息(允许有限次数)
  • REDUNDANTQUERY(冗余查询):超过验证次数限制的重复查询

基于这些标签,奖励函数变成:

揭秘Fathom-DeepResearch:4B小模型如何实现媲美GPT-4o的深度研究能力

3.2 RAPO:让训练不再崩溃的秘密

揭秘Fathom-DeepResearch:4B小模型如何实现媲美GPT-4o的深度研究能力

回放缓冲:为每个问题维护一个"最佳答案库"。如果某次训练所有尝试都失败了,就从库里抽一个成功案例混进去,避免方差归零。

图片图片

从图中可以看到,GRPO的熵值和梯度范数快速下降(意味着模型失去探索能力),而RAPO能保持稳定的训练信号。

3.3 Fathom-Synthesizer-4B:会写报告的综合模型

第二个模型的任务是把搜索轨迹变成一份可读的研究报告。它采用"先规划后撰写"的策略:

规划阶段(在标签内,用户看不到):

  1. 问题分解:把大问题拆成若干子问题
  2. 证据映射:将搜索到的每个网址和内容对应到相关章节
  3. 洞察策略:规划如何从证据中提炼观点

撰写阶段(生成实际报告):

  • 执行摘要:总览全文
  • 主体章节:按照分解的子问题组织,每个关键论断都标注引用来源
  • 引用列表:列出所有引用的网址

训练数据(DeepResearch-SFT)从GPT-5蒸馏而来,包含2500个开放式问题及其完整的规划+报告对。为了处理长文本,使用YaRN技术将Qwen3-4B的上下文窗口从40K扩展到65K。

图片图片

四、实验效果:小模型也能打败大模型

4.1 深度搜索任务上的表现

在五个主流深度搜索基准测试上(SimpleQA、FRAMES、WebWalker、Seal0、MuSiQue),Fathom-Search-4B取得了开源模型中的最佳成绩:

SimpleQA(真实世界问答):90.0%准确率,超过了所有开源竞争对手,甚至比GPT-4o(搜索版)还高5.6个百分点

WebWalker(长链推理):50.0%准确率,比第二名II-Search-4B高出9.2个百分点

FRAMES(多帧推理):64.8%准确率,显著领先

更有意思的是,在一些任务上,这个40亿参数的小模型甚至能接近甚至超越o3这样的超大模型(无搜索版本)。

4.2 通用推理能力依然强劲

为了验证模型没有"偏科"(只会搜索不会推理),作者还在四个通用推理基准上测试了Fathom-Search-4B:

  • GPQA-Diamond(研究生级科学问题):60.1%
  • MedQA(医学问答):75.4%
  • AIME-25(数学竞赛):70.0%

这些成绩证明,模型在获得搜索能力的同时,原有的推理能力没有退化。

图片图片

从工具调用分布图可以看出,DuetQA数据集确实更"硬核"——o3模型在这个数据集上平均需要3.3次搜索才能答对,分布呈长尾;而在SimpleQA上平均只需1.9次。这证明了数据集设计的有效性。

4.3 深度研究报告生成

在DeepResearch-Bench(开放式研究报告生成基准)上,Fathom-DeepResearch的整体得分为45.47,超过了Claude-3.7、Perplexity Deep Research、Grok等商业系统,仅次于Gemini-2.5-Pro和OpenAI DeepResearch。

具体指标上:

  • RACE综合评分:45.47(考察全面性、深度、可读性)
  • 引用准确率:56.1%(保证引用的来源真实可靠)
  • 有效引用数:38.3(足够的证据支撑)

考虑到这是一个40亿参数的开源模型,这个成绩相当亮眼。

图片图片

左图展示了准确率与工具调用次数的关系,右图展示了准确率与回答长度的关系。可以看到Fathom-Search-4B(Stage-2)在准确率和效率上都取得了最佳平衡。

4.4 消融实验:每个组件都很重要

RAPO vs GRPO:如表3所示,使用RAPO训练的模型在所有任务上都优于GRPO,且平均生成长度更短(5000 vs 9000 tokens),说明RAPO既提升了准确率,又提高了效率。

可控步骤级奖励的作用:如表4所示,引入步骤级奖励后,WebWalker任务的准确率从43.2%提升到50.0%,同时平均生成长度从5500增加到14500 tokens。这说明模型学会了在需要时进行更深入的探索。

图片图片

从训练曲线可以看出:

  • 使用可控步骤级奖励时,模型的回答长度稳步增长到14000 tokens,说明学会了长链推理
  • 使用普通奖励时,长度在6000 tokens就饱和了,无法进一步提升
  • RAPO相比GRPO,训练过程更平滑,没有大幅波动

五、论文总结:开源深度研究的新里程碑

这篇论文的核心价值在于:证明了小型语言模型(40亿参数)通过精心设计的训练流程,也能在复杂的深度研究任务上与大型商业模型一较高下

三个关键要素缺一不可:

  1. 高质量数据:DuetQA通过多智能体自我对弈,生成了真正需要联网搜索才能回答的问题,避免了模型"走捷径"
  2. 稳定训练:RAPO算法解决了多轮工具调用场景下的训练不稳定问题,让长链推理成为可能
  3. 智能奖励:步骤级奖励机制不仅关注最终答案,还细致评估每一步操作的价值,引导模型形成高效的搜索策略

局限性也值得注意:作者坦诚地指出,当前系统在测试时的可扩展性有限——虽然训练时能学会长链推理,但推理时的表现提升有限。此外,同步训练流程在大规模应用时效率不高,未来需要转向异步框架。

从工程实践角度看,这个工作的意义在于:降低了深度研究能力的门槛。以前只有资源雄厚的大公司才能训练出具备这种能力的模型,现在普通研究者和开发者也能在40亿参数规模上实现类似功能。这对于推动AI民主化、加速相关应用落地都有重要价值。

未来的研究方向可能包括:如何进一步提升测试时的可扩展性?如何在更小的模型(比如10亿参数)上实现类似能力?如何让系统更好地处理多模态信息(图表、视频等)?这些都是值得探索的问题。

相关资讯

GPT-5遭用户吐槽 “垃圾”:缩放定律失效,AGI梦渐行渐远?

2025 年 8 月,OpenAI 终于推出备受期待的 GPT-5,但其表现并未如市场预期般带来 “革命性突破”,反而让 “AI 进步失速”“缩放定律失效” 的讨论再度升温。 GPT-5 实测:亮点有限,失望声四起YouTube播主 Mrwhosetheboss 的实测显示,GPT-5 并非全面领先:在创建象棋游戏时优于 . GPT-4o-mini-high,撰写视频脚本时强于 GPT-4o,且能根据任务自动匹配最优模型;但在生成 YouTube .
8/18/2025 9:57:30 AM

OpenAI发布GPT-4.1系列模型:能力全面超越前代

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。 该系列在编程能力、指令理解及长文本处理等方面实现重大突破,全面超越前代 GPT-4o 及 GPT-4o mini。 其中,模型上下文窗口扩展至100万 tokens,知识库更新至2024年6月,为复杂任务提供更强支持。
4/15/2025 9:00:45 AM
AI在线

OpenAI发布GPT-4.1系列模型,编码与多模态能力全面升级

人工智能领域的竞争日趋白热化,OpenAI再次以技术突破引领潮流。 AIbase从社交媒体获悉,OpenAI于近日通过API形式发布了三款全新模型:GPT-4.1、GPT-4.1mini和GPT-4.1nano。 这些模型在性能上全面超越现有GPT-4o及GPT-4o mini,尤其在编码、指令遵循和多模态能力上表现突出。
4/15/2025 10:01:37 AM
AI在线
  • 1