从 “一刀切” 到 “精准筛”：DeepSieve 用四步流水线重构 RAG，告别检索噪声！

在大语言模型（LLMs）主导的AI时代，知识密集型任务始终面临一个核心矛盾：LLM擅长复杂推理，但受限于固定参数无法动态获取最新或领域专属知识；检索增强生成（RAG）虽能链接外部知识，却常因“一刀切”的检索逻辑陷入噪声冗余、推理浅薄的困境。来自罗格斯大学、西北大学与NEC实验室的团队提出的DeepSieve，创新性地将LLM作为“知识路由器”，通过多阶段信息筛选机制，为异构知识源与复杂查询的精准匹配提供了新解法。本文将带您深入拆解这一方案的设计思路与实验效果。

在大语言模型（LLMs）主导的AI时代，知识密集型任务始终面临一个核心矛盾：LLM擅长复杂推理，但受限于固定参数无法动态获取最新或领域专属知识；检索增强生成（RAG）虽能链接外部知识，却常因“一刀切”的检索逻辑陷入噪声冗余、推理浅薄的困境。

来自罗格斯大学、西北大学与NEC实验室的团队提出的DeepSieve，创新性地将LLM作为“知识路由器”，通过多阶段信息筛选机制，为异构知识源与复杂查询的精准匹配提供了新解法。本文将带您深入拆解这一方案的设计思路与实验效果。

论文地址：https://arxiv.org/pdf/2507.22050

项目代码：https://github.com/MinghoKwok/DeepSieve

01、为什么需要DeepSieve？RAG的两大核心痛点

现有RAG系统虽能缓解LLM的“知识过时”问题，但在处理真实场景任务时，存在难以逾越的两大障碍：

1. query侧：复杂查询被“一刀切”

多数RAG将用户查询视为“原子单元”，直接送入检索器匹配。例如面对“谁是尼日利亚空中医生服务创始人的丈夫”这类嵌套查询，系统无法拆解“先找创始人→再查其配偶”的推理链，要么返回无关信息，要么直接 hallucinate 出虚假答案。

2. 知识源侧：异构信息难兼容

真实世界的知识源高度多样：既有非结构化的文档库，也有结构化的SQL数据库，还有需API调用的实时数据（如天气、地图）。传统RAG将所有源合并为统一索引，不仅因格式冲突丢失信息，还会因隐私限制（如企业私有数据库）无法实现；更糟的是，检索时不区分源特性，比如用文本检索处理“19世纪出生的放射性发现者”这类需时间筛选的问题，效率极低。

而DeepSieve的核心目标，就是通过结构化分解查询与源感知路由，实现“查询按需拆、知识精准取”。

从 “一刀切” 到 “精准筛”：DeepSieve 用四步流水线重构 RAG，告别检索噪声！

02、DeepSieve的核心设计：四阶段信息筛选流水线

DeepSieve的本质是一套“模块化、可迭代”的检索推理框架，通过四个核心阶段完成从复杂查询到精准答案的转化，整体流程如图所示：

DeepSieve workflow

关键符号定义

Q：原始复杂查询（如“尼日利亚空中医生服务创始人的丈夫是谁”）
：知识源集合，是工具（如SQL、RAG检索器），是对应语料库（如员工数据库、维基文档）
核心操作：分解→路由→检索→反思→融合

阶段1：Query分解——把复杂问题拆成“可解单元”

第一步是将原始查询转化为结构化的子问题有向无环图（DAG）。例如：

原始查询：“谁是尼日利亚空中医生服务创始人的丈夫？”
分解结果：

：谁创立了尼日利亚空中医生服务？
：该创始人的丈夫是谁？

这里的关键是用LLM作为“规划器”，确保每个子问题仅对应一个“可检索事实”，且DAG的边能体现子问题间的依赖关系（如从 “一刀切” 到 “精准筛”：DeepSieve 用四步流水线重构 RAG，告别检索噪声！依赖的结果）。这一步就像把“拆快递”的复杂动作，拆解为“找快递单→核对地址→拆包装”的明确步骤。