一文教你玩转 RAG 大模型应用开发

Part.1.RAG这么火，你会用吗？自从大模型技术走向市场以来，“幻觉”现象总是对用户造成困扰，而RAG（Retrieval-Augmented Generation，检索增强生成）技术正在成为解决这一难题的利器。国内众多科技大厂在实践RAG技术时都取得了阶段性的成果。

Part.1.RAG这么火，你会用吗？

自从大模型技术走向市场以来，“幻觉”现象总是对用户造成困扰，而RAG（Retrieval-Augmented Generation，检索增强生成）技术正在成为解决这一难题的利器。国内众多科技大厂在实践RAG技术时都取得了阶段性的成果。

蚂蚁集团采用RAG技术，通过知识库分层构建、复杂文档处理、混合搜索策略和总结模型优化，答案获取效率提高约20%。

阿里云通过外挂知识库提供可靠知识，优化知识检索与答案生成流程，成功化解智能问答面临的幻觉、知识更新滞后、隐私数据泄露等挑战。

哔哩哔哩运用大模型升级智能客服系统，优化RAG链路和检索机制，构建全面的领域知识库，智能客服拦截率提升近30%。

字节跳动充分发挥RAG和FineTuning（微调）两种建设思路，利用大模型构建答疑机器人，实现研发基建部门答疑值班。

RAG这么厉害，很多小伙伴撸起袖子就想一气呵成地干好，但却没少碰壁，一是发现其所涵盖的技术栈特别广泛，二是实现过程中遇到技术难点后一筹莫展。难道要将AI所有的知识都学习一遍才能做好RAG吗？

Part.2RAG的核心

RAG的核心功能，就是它可以访问一个外部知识库或文档集，从中检索与当前问题相关的片段，将这些最新或特定领域的外部信息纳入“思考过程”，然后再进行回答生成。这使得大模型在回答问题时，不必依赖于其在训练过程中“记住”的知识，以此有效降低“幻觉”。

RAG使大模型能够“查阅资料”，将静态的、受限于训练时间的语言模型转变为能够动态获取信息、实时扩展知识的智能体。对大模型的“闭卷考试”瞬间变成了“开卷考试”，这种变化对大模型应用效果提升有着巨大潜力。

图片

RAG的核心组件包括知识嵌入、检索器和生成器。

知识嵌入（Knowledge Embedding）：将外部知识库的内容读取并拆分成块，通过嵌入模型将文本或其他形式的知识转化为向量表示，使其能够在高维语义空间中进行比较。这些嵌入向量捕捉了句子或段落的深层语义信息，并被索引存储在向量数据库中，以支持高效检索。

检索器（Retriever）：负责从外部知识库（向量表示的存储）中查找与用户输入相关的信息。检索器采用嵌入向量技术，通过计算语义相似性快速匹配相关文档。常用的方法包括基于稀疏向量的BM25和基于密集向量的近似最近邻检索。

生成器（Generator）：利用检索器返回的相关信息生成上下文相关的答案。生成器通常基于大模型，在内容生成过程中整合检索到的外部知识，确保生成的结果既流畅又可信。

为我们揭开RAG奥秘的本书作者黄佳，是新加坡科研局首席研究员（Lead Researcher），前埃森哲新加坡公司资深顾问。入行20多年来，他参与过政府部门、银行、电商、能源等多领域大型项目，积累了极为丰富的人工智能和大数据项目实战经验。

Part.3.跟着咖哥，全盘掌握RAG

RAG是大模型时代应用开发的一项伟大创新，弥补了单纯靠参数记忆知识的不足，使大模型在应对不断变化或高度专业化的问题时具有更强的适应性和灵活性。本书从RAG系统构建出发，逐步深入系统优化、评估以及复杂范式的探究，下面分为四个部分逐一详解。

RAG系统构建

这部分是RAG技术落地的第一步。在数据导入环节，书中详细讲解了如何读取与解析多样化的文件格式，包括TXT文本、CSV文件、网页文档、Markdown文件、PDF文件等，还有借助Unstructured工具从图片中提取文字并导入。

图片

文本分块是影响检索精度与生成质量的关键步骤，书中介绍了按固定字符数、递归、基于格式或语义等多种分块策略。针对信息嵌入，介绍了从早期词嵌入到当下流行的OpenAI、Jina等现代嵌入模型，详细说明了如何对嵌入模型进行微调。

针对向量存储则介绍了Milvus、Weaviate等主流向量数据库，以及选型时在索引类型、检索方式、多模态支持等多方面因素的考量，为构建高效的向量存储系统提供依据。

RAG系统优化

优化是提升RAG系统性能的关键。在检索前处理中，介绍查询构建如何实现Text-to-SQL等复杂转换，查询翻译能将简单模糊的查询重写为精准表述，查询路由则通过逻辑路由等方式将查询导向最合适的数据源。

索引优化给出节点-句子滑动窗口检索、分层合并等实用方法，提高检索效率。检索后处理涵盖RRF、Cross-Encoder等重排手段，以及Contextual Compression Retriever等压缩技术，这些手段和技术可以对检索结果执行校正操作。

图片

在响应生成阶段，通过改进提示词、选择适配的大模型，采用Self-RAG等优化方式，提升生成内容的质量，确保系统输出既准确又符合用户需求。

RAG系统评估

评估是度量RAG系统性能的重要手段。书中构建了全面的评估体系，评估数据集为测试提供基础素材，检索评估通过精确率、召回率等7种指标，度量系统从知识库中获取相关信息的能力。响应评估基于n-gram匹配、语义相似性等3类指标，判断生成回答的质量。

图片

该部分还介绍了RAGAS、TruLens等4种评估框架，帮助读者从不同维度对RAG系统进行量化分析，清晰了解系统在准确性、相关性、可靠性等方面的表现，进而有针对性地进行改进。

复杂RAG范式

最后一部分是对RAG技术的前沿探索，包括以下RAG范式：

GraphRAG：整合知识图谱，提升对复杂问题的处理能力；

上下文检索：突破传统上下文限制的困境，为用户提供更贴合语境的回答；

Modular RAG：实现从固定流程到灵活架构的转变；

Agentic RAG：引入自主代理驱动机制，让系统具备更强的自主性和智能性；

Multi-Modal RAG：实现多模态检索增强生成，支持文本、图像、音频等多种信息融合。

图片

经过这四个部分的系统化学习，读者将打下RAG的理论基础，并掌握RAG实施的方法与工具，大力提升大模型的工作效能。

Part.4结语

RAG实现了“模型的智力”与“人类知识宝库”的有机结合，使得智能系统更加紧密地嵌入实际业务流程，为用户提供始终符合时代、情境、专业要求的智慧服务。

一文教你玩转 RAG 大模型应用开发

Part.1.RAG这么火，你会用吗？

Part.2RAG的核心

Part.3.跟着咖哥，全盘掌握RAG

RAG系统构建

RAG系统优化

RAG系统评估

复杂RAG范式

Part.4结语

相关资讯

必须 AI 为第一作者！斯坦福发起的科研会议，接收 AI 投稿，AI 审稿、人类只能围观

21岁MIT辍学生AI创业团队获得3200万美元融资

从RAG到QA-RAG：整合生成式AI以用于药品监管合规流程