为何上下文成为人工智能领域的“新贵”：从 RAG 到上下文工程

译者 | 晶颜审校 | 重楼三个月前，我们的生产系统遭遇了一次严重故障，其根源并非代码缺陷或基础设施故障，而是源于对人工智能系统优化目标的根本性误解。此前，我们搭建了一套自认为具备先进水平的文档分析流程，整合了检索增强生成（RAG）、向量嵌入、语义搜索及精细调优的重排序功能。在演示场景中，该系统能够精准且富有说服力地回答关于客户监管文件的各类问题，但投入实际运行后，却频繁出现回答与上下文完全脱节的问题。

译者 | 晶颜

审校 | 重楼

三个月前，我们的生产系统遭遇了一次严重故障，其根源并非代码缺陷或基础设施故障，而是源于对人工智能系统优化目标的根本性误解。此前，我们搭建了一套自认为具备先进水平的文档分析流程，整合了检索增强生成（RAG）、向量嵌入、语义搜索及精细调优的重排序功能。在演示场景中，该系统能够精准且富有说服力地回答关于客户监管文件的各类问题，但投入实际运行后，却频繁出现回答与上下文完全脱节的问题。

在事后复盘会议中，一个关键认知逐渐清晰：我们此前的工作重心，错放在了信息检索过程的管理上，而忽略了对信息呈现方式的把控，且在这一核心环节上存在严重不足。

这次失败让我们深刻领悟到人工智能行业中一个愈发明确的真理：上下文绝非仅需优化的普通输入参数，而是决定人工智能系统能否真正创造价值、避免沦为高成本摆设的关键变量。与传统软件工程不同，传统软件工程以速度、内存或吞吐量为优化目标，而在上下文工程的范畴内，我们需以人类处理信息的逻辑看待数据——将其视为具有多层次结构、相互依存且依赖上下文感知的有机整体。

现代人工智能系统中的上下文危机

在探索上下文问题的解决方案之前，我们首先需明确其成为关键瓶颈的深层原因。这一问题并非源于技术层面的局限，而更多指向设计理念与认知哲学层面的偏差。

当前主流的人工智能系统，大多将上下文信息视为固定大小的“缓冲区”，在执行任务前仅对相关信息进行简单填充。这种模式在早期聊天机器人与基础问答系统中尚能满足需求，但随着人工智能应用场景的复杂化以及在核心工作流程中渗透率的提升，基于“缓冲区”的上下文处理方式已凸显出严重的局限性。

以典型的RAG系统为例，当用户输入查询问题时，系统通常遵循以下固定流程：

1. 将用户问题转化为向量表示形式；

2. 在向量数据库中执行相似性搜索；

3. 检索出相似度最高的前k个文档；

4. 将这些文档内容完整纳入上下文窗口；

5. 基于窗口内信息生成回答。

这种模式的核心假设是：在特定相似性空间内对向量嵌入进行聚类，可以被视为一种上下文推理过程。但在实际应用中，这种“推理”并非偶尔出错，而是持续存在偏差。

更深层次的缺陷在于对“上下文”概念的固有认知偏差——将其视为静态不变的存在。而在人类的真实对话中，上下文具有高度灵活性，会随对话进程动态变化、持续演进。例如，当你向同事询问“约翰逊报告”时，同事的“检索”并非简单匹配关键词，而是结合你当前负责的工作内容、涉及的项目背景等动态信息综合判断，这与人工智能系统的静态处理逻辑形成鲜明对比。

从检索导向到上下文协调：人工智能系统的思维转变

从关注信息检索方式，转向聚焦上下文协调，标志着人工智能系统构建理念的重大革新。这一转变意味着，我们的核心问题不再是“与当前查询最相似的信息是什么”，而是“以何种组合、何种顺序呈现信息，才能支撑最有效的决策”。这种思维重构，要求我们打破静态的上下文认知，建立动态、关联的上下文管理逻辑，让人工智能系统更贴近人类的信息处理模式，从而真正释放其价值。

为何上下文成为人工智能领域的“新贵”：从 RAG 到上下文工程

【上下文工程将多种信息流——用户意图、指令分层、上下文注入以及外部数据——整合到一个统一的处理框架中】

这种思维转变至关重要，因为上下文并非是累加式的，而是具有组合性的——向上下文窗口中堆砌更多文档，并不会线性提升系统性能，反而常因“注意力稀释”导致效果下降。正如部分研究人员所指出的，当模型注意力被过度分散，对关键细节的捕捉能力会显著减弱。

这一现象在文档分析系统的开发实践中得到了充分印证。系统初始版本会为每个查询检索所有相关案例、法规及条例，虽覆盖了全维度信息，却因信息过载失去实际应用价值，类似人类在海量信息轰炸下陷入决策困境的场景。

直至我们将上下文视为“叙事结构”而非“信息堆砌”，才实现认知突破。以法律推理为例，其遵循“阐述事实→确定适用的法律原则→应用原则至事实→预测反驳观点”的系统性逻辑，这正是上下文组合性的典型体现。

传统RAG与上下文工程的具体对比如下所示：

对比维度	传统RAG	上下文工程
核心焦点	检索 + 生成	全生命周期：检索、处理、管理
内存管理模式	无状态	分层式（短期/长期）
工具集成程度	基础（可选）	原生（TIR、代理）
可扩展性	适配简单问答场景	支持多轮交互，适配智能代理场景
常用工具	FAISS、Pinecone	LangGraph、MemGPT、GraphRAG
典型应用场景	文档搜索	自主编程助手

上下文工程的三层核心架构

有效的上下文构建需围绕“信息筛选、信息组织、上下文演变”三个关联层面展开，形成从信息获取到动态优化的完整闭环。

（一）信息筛选：突破语义相似性的局限

传统RAG过度依赖向量嵌入的语义相似性检索，忽略了信息缺失要素及其对理解的影响。而高效的信息筛选需融合多维度策略，具体包括：

相关性级联（Relevance Cascading）：以宽泛语义相似性为起点，逐步聚焦精准筛选条件。例如在监管合规系统中，筛选流程为“语义相关文件→特定管辖区域文件→近期监管文件→高频引用文件”，实现从粗到精的信息聚焦。
时间背景（Temporal Context）权重机制：通过衰减函数自动降低过时信息权重，仅保留标注为“基础性”或“具有先例意义”的历史信息。例如五年前的监管规定虽语义相关，但若已失效，则需排除或降低其优先级，避免上下文偏差。
用户上下文整合（User Context Integration）：除即时查询外，纳入用户角色、当前项目及历史交互数据。例如合规专员与软件工程师询问相同的“数据保留要求”，系统会基于角色差异，分别优先推送监管条款与技术实现规范。

（二）信息组织：构建上下文的“语法结构”

一旦我们提取了所需的信息，如何在上下文窗口中对其进行呈现就变得至关重要。这是传统检索与摘要系统可能存在的不足之处——它们将上下文窗口视为“无序容器”，而非精心组织的叙述集合。

而上下文工程则参照人类“信息分块”认知规律——人类工作记忆仅能同时处理约7条独立信息，一旦超出这个限度，我们的理解就会急剧下降——来构建领域适配的组织框架：

1. 领域化信息模板：依据专业场景设计信息呈现顺序。例如财务分析场景遵循“市场背景→公司信息→具体指标/事件”，医疗诊断场景遵循“患者病史→当前症状→医学文献”。

2. 动态调整组织模式：根据查询复杂度适配结构松散度——简单问题可采用灵活组织方式，复杂分析任务则需构建严格的信息层级，确保逻辑连贯性。

（三）上下文演变：实现系统的“对话能力”

第三层的上下文演变是最具挑战性但也最为重要的一个阶段。现有多数人工智能系统将每次交互视为独立事件，需为每个查询重新构建上下文；而上下文演变的核心，是让系统在对话或工作流程中保留并更新“共享上下文”，具体包括：

维护双重状态：不仅存储数据状态，更需记录“理解状态”——即系统在过往交互中形成的结构化信息，例如用户已确认的假设、待补充的信息缺口。
关联多轮交互：处理后续查询时，需分析新问题与历史上下文的关联，延续有效假设、整合新增信息。例如用户先询问“某项目合规风险”，后续追问“如何规避”时，系统无需重新检索项目基础信息，直接基于历史上下文提供解决方案。
优化用户体验：用户无需重复建立上下文，可基于历史对话提出“共识性问题”，实现人机协作的迭代探索，提升交互效率。

上下文经济学：效率与成本的平衡

上下文信息的处理成本与计算资源消耗呈正相关，若复杂人工智能应用的上下文读取效率低下，其运营成本将快速攀升至难以承受的水平。

通过具体数据可清晰感知这一成本压力：若上下文窗口固定为8000个词元，且系统日均处理1000次查询，仅上下文部分每日便需消耗800万个词元。依据当前人工智能服务定价体系，因上下文使用效率不足产生的额外成本，极易超出任务本身的生成成本，形成显著的资源浪费。

上下文管理不当的经济影响，远不止于直接的计算成本。低效的上下文处理会直接延长系统响应时间，导致用户体验恶化，进而降低系统使用率；同时还会增加重复错误的发生概率，对用户信任度造成损害，且后续需投入额外人力构建手动修复方案，形成成本与体验的恶性循环。

实践表明，最成功的人工智能应用均将上下文视为稀缺的受限资源，并实施精细化优化策略，核心措施包括：

1. 上下文预算机制：依据查询的复杂度、紧急度等特征，为不同类型信息明确分配上下文空间，避免资源错配。

2. 上下文压缩技术：通过提炼核心信息、剔除冗余内容，在有限窗口内最大化信息密度，减少无效词元消耗。

3. 上下文缓存策略：对高频调用的通用信息（如基础法规、固定流程）进行缓存，避免重复计算，降低资源消耗。

上下文有效性的科学衡量体系

在上下文工程实践中，构建与系统实际效能强关联的衡量标准是核心挑战之一。传统信息检索领域的准确率、召回率等指标虽不可或缺，但存在明显局限——它们仅能评估“是否检索到相关信息”，却无法衡量“相关信息能否形成有效上下文支撑决策”。

为何上下文成为人工智能领域的“新贵”：从 RAG 到上下文工程

【优化后的上下文存在效率峰值，单纯增加词元数量未必能提升准确率与召回率，反而可能因信息过载降低整体效率】

基于实际应用经验，最具预测价值的衡量指标多为行为类指标，而非单纯的准确性指标。上下文的有效性可通过用户参与模式直观反映，具体包括：用户提出后续问题的频率（体现上下文连贯性）、依据系统建议采取行动的比例（体现上下文实用性）、针对同类任务的系统重复使用率（体现上下文可靠性）。

此外，还需引入两类关键衡量维度：

上下文效率指标：量化每消耗一个上下文单元所产生的价值，高效的上下文策略能以最低信息开销输出具有决策意义的见解。
对话性能提升指标：跟踪多轮对话中系统回答的优化趋势。有效的上下文工程应使系统随对话推进，逐步深化对用户需求的理解，输出更精准、更贴合场景的回答，形成复杂认知闭环。

上下文工程的核心工具与技术逻辑

实现高效的上下文工程，既需依托新型工具，也需革新对传统工具的应用思路。尽管人工智能领域每月均有新工具涌现，但经生产实践验证的有效策略，普遍遵循以下技术逻辑：

下文路由器：摒弃固定检索策略，通过识别查询意图、复杂度、历史上下文等要素动态决策。其核心目标是通过策略优化，筛选出最适配的信息并合理组织，确保上下文与查询需求高度匹配。
上下文压缩器：以信息论为理论基础，构建“最大逻辑”机制——区别于简单的文本摘要工具，它能精准保留与上下文强相关的核心信息，同时过滤噪音与冗余内容，实现信息密度与相关性的双重优化。
上下文状态管理器：构建对话状态与工作流状态的结构化描述，使人工智能系统具备“记忆能力”。无需在每次交互或干预时从零构建上下文，而是基于历史状态持续迭代，提升多轮交互的连贯性与效率。

本质而言，上下文工程要求我们重新定位人工智能系统的角色——将其视为持续对话中的“协作伙伴”，而非仅能响应孤立查询的“神谕系统”。这一认知转变将深刻影响人工智能产品的界面设计、数据组织方式，以及成功标准的设定逻辑。

展望未来：上下文成为竞争优势

随着人工智能基础功能（如模型架构、通用算法）的标准化程度不断提升，上下文工程正逐渐成为企业差异化竞争的关键壁垒。未来，人工智能应用的价值提升路径将发生显著转变：不再依赖更先进的模型或更复杂的算法，而是通过“更精准的上下文构建”，释放现有模型的决策潜力，实现更高的可靠性与商业价值。

上下文工程的影响已超越技术实施层面，延伸至企业战略维度。将上下文工程纳入核心竞争力、融入差异化组织战略的企业，相比仅强调模型能力、忽视信息架构、用户工作流程与领域推理逻辑的竞争对手，将在市场竞争中占据明显优势。

一项覆盖1400余篇人工智能领域论文的最新分析，揭示了一个关键认知偏差：行业长期聚焦于模型规模扩大与上下文窗口延长，但研究表明，当前人工智能系统已具备理解复杂信息的能力，核心瓶颈并非“模型智能程度”，而是“如何向系统输入有效信息以构建优质上下文”。这一结论进一步印证了上下文工程的战略价值。

结语

文档分析系统的实践失败，让我们深刻认识到：构建有效的人工智能系统，核心并非拥有最先进的模型或最复杂的算法，而是通过合理的信息流动设计，构建优质上下文以支撑精准决策。

如今，上下文工程正逐渐成为区分“具备实际价值的人工智能系统”与“仅作演示用途的人工智能系统”的核心标志。

人工智能的未来发展方向，不是打造能理解一切的全能系统，而是创建能够准确理解系统应当关注什么、何时关注以及如何将这种关注转化为行动和见解的系统。这一转变将重新定义人机协作模式，推动人工智能从工具属性向“决策伙伴”属性升级。

原文标题：Why Context Is the New Currency in AI: From RAG to Context Engineering，作者：Sudheer Singamsetty

为何上下文成为人工智能领域的“新贵”：从 RAG 到上下文工程

现代人工智能系统中的上下文危机

从检索导向到上下文协调：人工智能系统的思维转变

上下文工程的三层核心架构

（一）信息筛选：突破语义相似性的局限

（二）信息组织：构建上下文的“语法结构”

（三）上下文演变：实现系统的“对话能力”

上下文经济学：效率与成本的平衡

上下文有效性的科学衡量体系

上下文工程的核心工具与技术逻辑

展望未来：上下文成为竞争优势

结语

相关资讯

提示词工程、RAG之后，LangChain：上下文工程开始火了！

借助上下文工程优化任何AI代理框架

提示词工程还没玩明白，又多了一个新词叫上下文工程！