AI在线 AI在线

为什么你的 RAG 系统在复杂问题上失灵?

本文通过 Retrieval and Structuring (RAS) 范式理解精准推理与领域专长,并附实现示例Large Language Models(LLM,大型语言模型)在文本生成和复杂推理方面展现了卓越能力。 但它们并不完美。 当 LLM 用于真实世界场景时,会面临多种挑战:有时会出现“幻觉”,有时会给出过时的答案。

本文通过 Retrieval and Structuring (RAS) 范式理解精准推理与领域专长,并附实现示例

Large Language Models(LLM,大型语言模型)在文本生成和复杂推理方面展现了卓越能力。但它们并不完美。

当 LLM 用于真实世界场景时,会面临多种挑战:有时会出现“幻觉”,有时会给出过时的答案。

为了解决这些问题,引入了 Retrieval-Augmented Generation(RAG)。RAG 先从外部文档检索相关信息,以此为 LLM 的回答“接地气”,显著减少幻觉。

看起来是个好方案?还不完全是。

传统 RAG 往往把外部信息当作原始、非结构化的文本片段来处理。这些杂乱文本中常包含令人困惑或非原子化的信息,容易误导 LLM。同时,当问题需要多步推理时,系统也会变得吃力。

为突破这些限制,Retrieval and Structuring(RAS)范式应运而生。RAS 在 RAG 基础上增加了知识结构化这一步。

本文将带你了解 RAS 框架、各阶段及其实现步骤。

为什么需要为 RAG 进行结构化?

结构化通过把检索到的非结构化文本转化为有组织、可操作的知识,解决传统 RAG 的关键限制。

下面来理解在 RAG 中进行数据结构化的重要性。

1. 克服传统 RAG 的局限

传统 RAG 连接 LLM 与外部信息,以缓解幻觉和知识过时等问题。然而,RAG 仍然处理的是非结构化文本片段。

非结构化文本常包含无关细节,容易干扰模型,导致误导性答案。

面对需要多步推理或需要有组织的领域知识的复杂问题,常规 RAG 会很吃力。

2. 增强 LLM 的生成与推理

把外部知识结构化为诸如 Knowledge Graph(知识图谱)之类的表示,是提升 LLM 输出质量与推理能力的关键。

当答案构建于结构化知识之上,模型更不易产生幻觉。比如,KG-RAG 以 Knowledge Graph 引导模型,使得回答更准确、更有依据。

结构化数据能让模型看到事实之间的连接,从而应对需要更深层推理的复杂问题。

与闭源和开源模型的对比显示,RAS 能显著提升 AI 应用的效果。

![RAS 的性能对比 - 与闭源/开源模型 [Source]]](https://miro.medium.com/1*OiBbYIHuV9-AkIgkbtc6Kg.png)

什么是 RAS?

Retrieval And Structuring(RAS)范式在传统 RAG 基础上引入 Taxonomy 和 Knowledge Graph 等知识结构化技术,将非结构化文本转化为有组织的知识,以增强推理与可验证性。

RAS 将三个关键组件统一到一个框架中:信息检索、结构化知识表示(如 Knowledge Graph)以及 LLM。

下面用一个通俗的版本来说明 RAS。

传统 LLM 只依赖训练中“记住”的内容(可能过时或不完整),因此可能猜测甚至“幻觉”答案。

RAG(Retrieval-Augmented Generation)为解决幻觉与过时/专有数据问题而发展,让 LLM 先查资料(检索非结构化文本片段)。问题在于,检索回来的是一大堆杂乱文本,信息不原子且容易误导。

RAS(Retrieval-And-Structuring)发展出一种更强的策略,用于彻底消除“脏数据”的困扰:

  • Step 1: Retrieval——LLM 搜索所有相关文档。
  • Step 2: Structuring——不直接拉取原始文本,而是访问组织化的数据(如 Knowledge Graph 或 Taxonomy),消除混淆并提炼事实与关系。
  • Step 3: Generation——LLM 基于这个组织化的 Knowledge Graph 构建事实正确、可验证的答案。

RAS 范式抽象示意 [Source]

本质上,RAS 不仅教会 LLM 如何找到信息,还教它如何正确组织与运用信息进行推理。

RAS 范式的基础原则

RAS 提升了 LLM 执行知识密集型任务的能力,并促进更高效的知识发现。其核心是有效使用结构化数据,改进检索流程与 LLM 输出质量:

1. Structure-Enhanced Retrieval(结构增强检索:更聪明地找知识)

结构化技术帮助检索系统精准找到 LLM 需要的内容,尤其在复杂或领域特定的问题上。三种基础方法:

  • Taxonomy-Based Approaches:不再只做通用搜索,而是使用领域特定的主题 Taxonomy。搜索由领域结构引导,不必依赖大量标注数据。
  • Knowledge Graph(KG)-Based Approaches:使用 Knowledge Graph 提升检索质量。例如 KG-RAG 让 LLM 按图逐步推理,聚焦实体及关系而非仅关键词,从而更准确。
  • The Iterative Cycle:采用迭代循环。先由“Taxonomy 增强的检索器”找到相关文档,立即结构化为子图以更新“面向查询的 KG”。LLM 基于该 KG 回答问题,必要时再生成聚焦的子查询,开启新一轮精炼检索。

2. Structure-Enhanced LLM Generation(结构增强生成:更聪明地用知识)

在得到结构化知识后,关键是利用它增强 LLM 的回答。结构增强生成将模型回答锚定在显式知识结构上,显著减少幻觉并提升事实一致性。

  • ToG(Think-on-Graph)通过引导式提示在 KG 上直接推理,逐步构建显式推理链。
  • GoT(Graph-of-Thought)将 LLM 的推理过程结构化为图,而非简单的线性链,支持多路径探索和循环思考等复杂模式。
  • 其他技术如 GraphRAG 将复杂结构化知识浓缩为文本摘要,使 LLM 能处理需要对语料全局理解的复杂查询。

RAS 范式基础原则 - 图片由作者使用 Napkin.ai 制作

为 RAG 创建并添加结构的技术与实现

1. 为数据添加简单结构

添加结构涉及多个步骤:从 Taxonomy 构建开始,随后进行 Taxonomy 丰富、实体抽取与 Knowledge Graph 创建。

为数据添加简单结构的步骤 - 作者:Vivedha Elango

Step 1: 创建核心的结构化表示(Taxonomies 与 Entities)

该阶段建立领域知识的组织结构,第一步通常是构建一个 Taxonomy。

什么是 Taxonomy?

Taxonomy 是一种树状结构,从上层的广义类别(父节点)组织到下层更具体的类别(子节点)。在文本挖掘中,Taxonomy 有助于结构化标签与组织信息。

Taxonomy 构建从一个“seed”起步。不同方法在宽度与深度上扩展 seed,并在后续调整整体结构。

  • HiExpan 通过实体扩展来生长 Taxonomy,并用词类比进行细化。它面向任务地从领域语料中构建 Taxonomy。用户可提供 seed Taxonomy 进行引导,确保结果与需求匹配。其流程会自动生成关键词列表,基于 seed 逐步扩展各节点并递归拓展子节点集,保持子节点组的一致性与相关性,并提供弱监督关系抽取模块。

任务引导的 Taxonomy 构建:用户提供 seed 树,系统从原始语料中抽取关键词并自动生成 Taxonomy [Source]层级树扩展算法概览 [Source]

  • CoRel 使用预训练语言模型学习可泛化的父子关系。ColRel 提供一种更契合用户兴趣的 Taxonomy 构建方式:以用户提供的 seed Taxonomy 与语料为起点,生成覆盖更丰富的定制化 Taxonomy。每个节点是一个相关术语簇,使得结构更有意义、更贴近用户需求。其核心模块包括:
  • Relation Transferring:学习用户关注的关系,并在不同路径间迁移,从而在宽度与深度上扩展结构,获得更细致与更广的层级。
  • Concept Learning:通过对 Taxonomy 与语料进行联合嵌入,让每个概念由一组一致的相关术语来表示,以增强语义。

Seed 引导的主题 Taxonomy 构建 [Source]

Step 2: Taxonomy Enrichment

该步骤为已构建的 Taxonomy 节点关联描述性文本(如关键词),使每个节点更具信息性与区分度,并在丰富过程中显式建模树状结构。

  • TaxoGen:递归地对词向量进行聚类,并用本地语料细化簇。它将相关术语聚为单一主题,先用嵌入捕捉语义,再用特殊聚类逐级细化主题,确保一般性术语位于高层、具体术语位于低层。随后在与小主题相关的本地语料上重学嵌入,以分辨细微差别,最终自动产出清晰有用的 Taxonomy。

TaxoGen 概览 [Source]

  • NetTaxo:在 TaxoGen 基础上引入网络结构信息,让文档之间的连接与文本内容共同作用,构建更丰富、更准确的主题层级,更易发现主题及其子主题,提升可用性与信息量。

NetTaxo 概览 [Source]

Step 3: Information Extraction(实体与关系挖掘)

Information Extraction(IE)聚焦于抽取实体级信息,作为知识结构化的基石。该步骤识别现实世界实体与其关系,是构建 Knowledge Graph 的关键。

常用技术包括:

  • Entity Mining(如 Named Entity Recognition,NER)
  • Fine-Grained Entity Typing(FET,将实体归类进本体/ontology)
  • Relation Extraction

Step 4: Knowledge Graph Construction(KG)

在该步骤中,将抽取的信息实体化为 Knowledge Graph(KG):用节点表示实体,用边表示关系。

典型技术与框架包括:

  • Pipelined Methods:历史上常用 Open Information Extraction(OpenIE)工具抽取三元组,再进行过滤与融合。OpenIE 能抽取开放域的主语-关系-宾语三元组,并产出对应蕴含句片段(存于 CoreMap 的 EntailedSentencesAnnotation 键)。

OpenIE 工作流概览 [Source]

  • End-to-End Models:如 REBEL 等框架直接利用 Pre-trained Language Models 将原始文本端到端转成结构化知识。
  • LLM-based Construction:如 KnowledgeGraph GPT,直接通过提示 LLM(如 GPT-4)将纯文本转为 KG。

以上步骤构成了简单 RAS 循环所需的流程与可用框架,下面的流程图有助于整体把握。

为 RAG 添加简单结构的实现

kg-gen 包提供了便捷实现。它是一个 text-to-KG 生成器,使用 LLM 从纯文本直接构建高质量图。kg-gen 会把相近实体聚类,降低稀疏性、提升可用性。通过 pip install kg-gen 可安装为 Python 库。

复制

对于长文本,可通过 chunk_size 参数分块处理:

复制

你还可以在生成时或之后对实体与关系进行聚类:

复制

聚合多个图

使用 aggregate 方法合并多个图:

复制

2. 进阶:动态添加结构(迭代式 RAS 循环)

在进阶 RAS 系统中,结构化过程通常是动态与迭代的,结合 Taxonomy 与 KG,针对查询定制上下文。

该技术适用于更灵活的高级 RAG 应用:动态构建并细化与用户查询强相关的结构化知识上下文。

RAS 如何构建与使用知识来回答问题,可分为四个关键阶段:

  • Stage1: Action Planning(规划所需信息)
  1. 需求评估:Planner 模型先检查主问题,判断现有知识是否足够。
  2. 无需检索:若可直接作答,则进入生成阶段。
  3. 生成子查询:若知识不足,Planner 会生成聚焦的子查询以弥补特定知识缺口。该迭代规划机制突破了一次性检索方法的局限。
  • Stage 2: Theme-Scoped Retrieval(主题域检索)
  1. 主题域划定:通过分类器确定子查询的主题分布,并据此限定到主题子语料。

  2. 密集检索:仅在该子语料内进行语义匹配以找到最相关文本,提高效率与相关性。

  • Stage 3: Dynamic Knowledge Structuring(动态知识结构化)

  1. 文本到三元组:将检索到的文本转为知识三元组(subject-predicate-object)。

  2. 迭代丰富:将新事实并入随查询演化的 KG,使其逐步扩展。

  3. 再评估:Action Planner 基于更新后的 KG 判断是否足以回答主问题,否则生成下一轮子查询。

  • Stage 4: Knowledge-Augmented Generation(结构增强生成)

  1. 利用结构:Answerer 模型使用累积的 KG、子查询链与检索事实生成最终答案。

  2. 输出准确:在 KG 的精确结构化知识支撑下,回答更准确、连贯,且优于旧式 RAG 在复杂任务上的表现。

下面的流程图概括了迭代式 RAS 循环的步骤。

RAS 步骤 - 作者:Vivedha Elango

迭代式 RAS 的实现

RAS 论文(链接)提供了代码实现(GitHub 链接)。你可按说明搭建并在复杂查询上测试其效果。

性能对比 [Source]

RAS 的技术挑战

Retrieval and Structuring(RAS)为让 LLM 更聪明、更实用开辟了新路,但仍有诸多挑战。主要集中在三方面:检索效率、知识质量与集成复杂度。

1. 检索效率

首要挑战是速度。数据越大,快速而准确地找到所需信息就越难。

  • Scaling 与 Latency:更大的模型与数据带来更大负载;RAS 的额外步骤也会提高时延。

Dense RAG 与 RAS 的时延对比 [Source]

关键在于如何在规模化时保持速度与相关性,这需要新的索引方法与高并发请求处理机制。

  • 自适应策略:查询难度不一。系统需具备自适应能力,何时深入、何时浅尝辄止,从而在性能与体验间取得平衡。

2. 知识质量

RAS 依赖将杂乱的非结构化文本转为干净的结构化知识,这并不容易。噪声、矛盾与不一致都会削弱系统。

  • 噪声与不一致:自动化构建 Taxonomy 与 Knowledge Graph 的工具可能引入错误或矛盾。
  • 稳健验证:需要更强的质控方法,最好引入领域专家参与并支持迭代改进。
  • 跨领域一致性:医学、法律、工程等领域有差异化语境,需在尊重领域差异的前提下保持结构化知识的连贯性。

3. 集成复杂度

即便检索快速、知识高质,结构化信息与 LLM 推理的深度融合仍然最为棘手。

  • 融合异源:知识来源多样、可能冲突、重叠或过时。系统需要解决与更新机制。
  • 一致性维护:新数据加入时,旧知识需增量更新与冲突消解,保持整体一致。
  • 实时适配:LLM 既要准确信息,也要实时性,要求框架能动态摄取与整合信息。
  • 性能权衡:更多结构意味着更多计算开销,需要在推理能力与效率之间取得平衡。

研究机会

随着数据类型、规模与复杂度增长,RAS 仍在演进,未来有多条有前景的方向。

多模态知识集成

当下数据不仅是文本,还有图像、视频、音频等。未来 RAS 需要无缝处理多模态,构建统一索引,跨模态建立语义连接(如把视频片段关联到文本、把图像关联到音频描述)。融合 vision-language 模型与文本编码器的神经架构是方向之一,使 LLM 能跨模态推理并在回答中引用非文本线索。

跨语言系统

知识不受语言限制,但大多数结构化系统仍受限于语言。多语言嵌入与平行语料可帮助构建跨语言的 Taxonomy;迁移学习可将高资源语言的结构迁移到低资源语言。标准化的跨语基准与健壮的领域自适应方法将进一步提高准确性。

交互式与自我精炼系统

静态检索有其上限。用户常希望通过对话自然细化查询。交互式界面可以支持这一点;同时,借助强化学习或元学习的自我精炼机制,系统能自检自纠;若还能解释修正步骤并结合用户反馈,将更聪明也更透明。

人机协作框架

在复杂结构化任务中,人类专家仍不可或缺。专家可精炼 Taxonomy、审查边界案例;众包可帮助保持数据新鲜与相关。人机协作还有助于确保隐私与公平。机器的规模与人的判断结合,才能发挥最大价值。

个性化知识投递

用户诉求各异。个性化通过引入用户画像、历史行为或直接反馈,使检索更相关。同时需内置隐私保护。随着时间推移,系统可在核心架构之上叠加上下文线索以自适应。

结语

Retrieval and Structuring(RAS)是推动 LLM 从“惊艳但不完美”迈向“可靠、知识驱动”的下一步。

传统 RAG 通过引入外部文档缓解了部分问题,但面对杂乱无章、重复、缺失或难以解析的非结构化数据时仍会失灵。

RAS 的核心很简单:把非结构化数据转成结构化、可验证的知识。通过文本结构化构建 Taxonomy、创建层级、抽取实体,进而组织成可用的 Knowledge Graph。

当然,RAS 仍面临挑战:检索需更快、更可扩展;Knowledge Graph 随增长需保持准确与一致;结构化数据需要持续维护、精炼与验证。

展望未来,RAS 将走向更深的集成与更强的适应性,包括跨文本、图像、视频、音频等多模态的系统,以及跨语言共享知识的结构。

参考文献

[1] A Survey on Retrieval And Structuring Augmented Generation with Large Language Models

[2] RAS: Retrieval-And-Structuring for Knowledge-Intensive LLM Generation

相关资讯

中科院新突破:Auto-RAG开启Agentic RAG落地新篇章

中科院智能信息处理重点实验室发表的Auto-RAG(Autonomous Retrieval-Augmented Generation) 技术,作为Agentic RAG(智能体驱动检索增强)趋势下的产出,打破传统RAG的「检索→生成」线性瓶颈,通过大语言模型(LLM)的自主决策能力,实现「检索规划→信息提取→答案推断」的闭环推理,让机器像人类侦探般动态收集线索、修正方向,无需人工预设规则。 这项技术的核心价值在于:将RAG从「被动执行工具」升级为「主动认知智能体」,不仅解决传统方法的效率低、幻觉多等问题,更在开放域问答、多跳推理等任务中展现出碾压级性能。 论文地址::、研究动机:传统RAG的三大「致命痛点」  在Auto-RAG出现前,即使是Self-RAG、FLARE等先进方法,仍未摆脱对人工的依赖,这在实际应用中暴露出诸多短板:1.
10/29/2025 4:16:49 PM
Goldma

HtmlRAG:RAG系统中,HTML比纯文本效果更好

HtmlRAG 方法通过使用 HTML 而不是纯文本来增强 RAG 系统中的知识表示能力。 通过 HTML 清洗和两步块树修剪方法,在保持关键信息的同时缩短了 HTML 文档的长度。 这种方法优于现有基于纯文本的RAG的性能。
2/11/2025 8:50:14 AM
余俊晖

浅析小语言模型在增强RAG系统中的作用

译者 | 布加迪审校 | 重楼小语言模型(SLM)是大语言模型(LLM)的紧凑版。 它们包含的参数通常少于大语言模型:大约30亿个参数或更少。 这使得它们相对轻量级,推理时间更快。
4/29/2025 8:09:39 AM
布加迪
  • 1