AI在线 AI在线

ACE代理上下文工程:构建自我改进的大语言模型新范式

摘要在人工智能快速发展的今天,大语言模型(LLM)的应用场景日益复杂,从简单的文本生成扩展到复杂的代理系统和领域专业推理。 传统的模型优化方法主要依赖于权重更新,但这种方式在实际部署中面临着成本高、灵活性差等挑战。 斯坦福大学、SambaNova Systems和加州大学伯克利分校的研究团队提出了一种革命性的解决方案——ACE(Agentic Context Engineering,代理上下文工程)框架,该框架通过动态构建和优化输入上下文而非更新模型参数来提升LLM性能。

摘要

在人工智能快速发展的今天,大语言模型(LLM)的应用场景日益复杂,从简单的文本生成扩展到复杂的代理系统和领域专业推理。传统的模型优化方法主要依赖于权重更新,但这种方式在实际部署中面临着成本高、灵活性差等挑战。斯坦福大学、SambaNova Systems和加州大学伯克利分校的研究团队提出了一种革命性的解决方案——ACE(Agentic Context Engineering,代理上下文工程)框架,该框架通过动态构建和优化输入上下文而非更新模型参数来提升LLM性能。

本文深入分析了ACE框架的核心技术原理、创新设计理念以及在实际应用中的显著效果。研究结果表明,ACE在AppWorld代理任务中实现了10.6%的性能提升,在金融分析任务中取得了8.6%的改进,同时将适应延迟降低了86.9%。更令人瞩目的是,使用较小开源模型的ACE系统在AppWorld排行榜上与使用GPT-4.1的顶级生产系统IBM CUGA相匹敌,展现了上下文工程在构建高效、可扩展AI系统方面的巨大潜力。

研究背景与动机

上下文适应的兴起

现代基于大语言模型的AI应用,如LLM代理和复合AI系统,越来越依赖于上下文适应(Context Adaptation)技术。与传统的模型权重更新不同,上下文适应通过在模型输入中直接整合澄清指令、结构化推理步骤或领域特定格式来提升模型训练后的性能。这种方法具有多重优势:首先,上下文对用户和开发者而言具有良好的可解释性和可解释性;其次,它允许在运行时快速集成新知识;最后,上下文可以在复合系统的不同模块间共享使用。

随着长上下文LLM技术的进步和KV缓存重用等上下文高效推理技术的发展,基于上下文的方法在实际部署中变得越来越实用。因此,上下文适应正在成为构建功能强大、可扩展和自我改进AI系统的核心范式。

现有方法的局限性

尽管上下文适应技术取得了显著进展,但现有方法仍面临两个关键限制。第一个是简洁偏差(Brevity Bias)问题。许多提示优化器优先考虑简洁、广泛适用的指令,而非全面的知识积累。例如,GEPA等方法虽然强调简洁性的优势,但这种抽象往往会遗漏在实践中至关重要的领域特定启发式方法、工具使用指南或常见故障模式。

第二个限制是上下文崩溃(Context Collapse)现象。依赖LLM进行整体重写的方法往往会随时间推移退化为更短、信息量更少的摘要,导致性能急剧下降。研究团队在AppWorld基准测试中观察到,在第60步时上下文包含18,282个令牌并达到66.7%的准确率,但在下一步就崩溃至仅122个令牌,准确率下降到57.1%,甚至低于无适应的基线准确率63.7%。

上下文崩溃现象

ACE框架核心技术

整体架构设计

ACE框架采用了一种创新的代理架构,将上下文视为不断演进的"剧本"(Playbook),通过生成、反思和策展的模块化过程来积累、完善和组织策略。该框架建立在Dynamic Cheatsheet的代理设计基础上,引入了三个专门化组件的分工协作机制。

ACE框架架构

生成器(Generator)负责为新查询产生推理轨迹,这些轨迹既展现了有效策略,也暴露了反复出现的陷阱。

反思器(Reflector)对这些轨迹进行批判性分析以提取经验教训,可选择性地在多次迭代中进行精炼。

策展器(Curator)将这些经验教训综合为紧凑的增量条目,通过轻量级的非LLM逻辑确定性地合并到现有上下文中。

增量更新机制

ACE的核心设计原则是将上下文表示为结构化、条目化要点的集合,而非单一的整体提示。每个要点包含两个主要组成部分:元数据(包括唯一标识符和跟踪其被标记为有用或有害频次的计数器)和内容(捕获可重用策略、领域概念或常见故障模式等小单元)。

这种条目化设计实现了三个关键特性:局部化更新(仅相关要点被更新)、细粒度检索(生成器可专注于最相关的知识)和增量适应(允许在推理过程中进行高效的合并、修剪和去重)。

与完全重新生成上下文不同,ACE增量产生紧凑的增量上下文:由反思器提炼并由策展器集成的候选要点小集合。这避免了完全重写的计算成本和延迟,同时确保过去的知识得到保留,新见解得到稳步追加。

增长与精炼策略

除了增量增长,ACE还通过周期性或懒惰精炼确保上下文保持紧凑和相关。在增长与精炼机制中,具有新标识符的要点被追加,而现有要点被就地更新(如递增计数器)。随后的去重步骤通过语义嵌入比较要点来修剪冗余。

这种精炼可以主动执行(每次增量后)或懒惰执行(仅当超出上下文窗口时),具体取决于应用对延迟和准确性的要求。增量更新和增长精炼的结合维护了适应性扩展、保持可解释性并避免整体上下文重写引入的潜在方差的上下文。

实验设计与评估方法

基准数据集选择

研究团队选择了两类最能从全面、演进上下文中受益的LLM应用进行评估。第一类是代理基准,需要多轮推理、工具使用和环境交互,积累的策略可以跨情节重用。研究选择了AppWorld作为主要测试平台,这是一个包含API理解、代码生成和环境交互的自主代理任务套件,提供了包含常见应用和API的真实执行环境。

第二类是领域特定基准,需要专门的策略和知识掌握。研究团队专注于金融分析作为案例研究,选择了FiNER和Formula两个测试LLM在依赖可扩展商业报告语言(XBRL)的金融推理任务上的表现的数据集。

基线方法比较

为了全面评估ACE的性能,研究团队设计了多个强基线进行比较。基础LLM直接在每个基准上进行评估,使用数据集作者提供的默认提示。上下文学习(ICL)在输入提示中提供任务演示,允许模型在不进行权重更新的情况下推断任务格式和期望输出。

MIPROv2作为流行的LLM应用提示优化器,通过贝叶斯优化联合优化系统指令和上下文演示。GEPA基于反思提示演进的样本高效提示优化器,收集执行轨迹并应用自然语言反思来诊断错误、分配信用和提出提示更新。Dynamic Cheatsheet作为测试时学习方法,引入了可重用策略和代码片段的自适应外部记忆。

实验结果与性能分析

代理基准测试结果

在AppWorld基准测试中,ACE展现了令人瞩目的性能提升。在离线设置中,ReAct + ACE相比ReAct + ICL和ReAct + GEPA分别实现了12.3%和11.9%的显著改进,证明了结构化、演进和详细的上下文比固定演示或单一优化指令提示能够实现更有效的代理学习。

AppWorld实验结果

这些收益延续到在线设置,ACE继续超越Dynamic Cheatsheet等先前自适应方法平均7.6%。值得注意的是,即使在适应过程中无法访问真实标签的情况下,ACE仍保持有效性:在此设置下,ReAct + ACE相比ReAct基线实现了平均14.8%的改进。

在2025年9月20日的AppWorld排行榜上,ReAct + ACE(59.4%)与排名第一的IBM CUGA(60.3%)相匹敌,后者是基于GPT-4.1的生产级代理,而ACE使用的是较小的开源模型DeepSeek-V3.1。通过在线适应,ReAct + ACE在更困难的测试挑战分割上甚至超越IBM CUGA,在TGC上超出8.4%,在SGC上超出0.7%。

领域特定基准表现

在金融分析基准测试中,ACE同样表现出色。在离线设置中,当提供来自训练分割的真实答案时,ACE相比ICL、MIPROv2和GEPA平均超出10.9%,显示结构化和演进上下文在需要精确领域知识的任务中特别有效。

在在线设置中,ACE继续超越Dynamic Cheatsheet等先前自适应方法平均6.2%,进一步确认了代理上下文工程在跨专业领域积累可重用见解方面的优势。

成本与延迟分析

ACE的增量更新和非LLM合并机制显著降低了适应开销。在AppWorld的离线适应中,相比GEPA,ACE实现了82.3%的适应延迟减少和75.1%的推出次数减少。在FiNER的在线适应中,相比Dynamic Cheatsheet,ACE实现了91.5%的适应延迟减少和83.6%的令牌成本减少。

消融研究与设计验证

研究团队进行了详细的消融研究来分析ACE各个设计选择的贡献。研究检验了三个因素:带有迭代精炼的反思器(我们在Dynamic Cheatsheet之外对代理框架的补充)、多轮适应(在训练样本上多次精炼上下文)和离线预热(在在线适应开始前通过离线适应初始化上下文)。

结果显示,反思器组件对性能提升至关重要,将平均性能从55.1%提升到56.8%。多轮适应进一步将性能提升到59.4%,证明了迭代精炼的价值。离线预热在在线适应中也显示出明显的改进效果。

技术创新与突破

结构化上下文表示

ACE的一个重要创新是将上下文结构化为条目化要点集合,每个要点包含元数据和内容两部分。这种设计不仅支持细粒度的更新和检索,还使得上下文的演进过程变得可追踪和可控制。与传统的整体式提示相比,这种结构化表示为大规模上下文管理提供了更好的可扩展性。

三角色协作机制

生成器、反思器和策展器的三角色分工体现了软件工程中关注点分离的设计原则。生成器专注于任务执行和轨迹生成,反思器负责从执行结果中提取有价值的见解,策展器则确保这些见解以结构化方式集成到上下文中。这种分工不仅提高了系统的可维护性,还使得每个组件可以独立优化。

增量学习范式

ACE实现了真正的增量学习,避免了传统方法中的"灾难性遗忘"问题。通过增量更新机制,系统能够在学习新知识的同时保留已有的有用信息。这种设计对于需要长期运行和持续学习的AI系统具有重要意义。

实际应用场景分析

企业级AI代理部署

ACE框架特别适合企业级AI代理的部署场景。在这些环境中,代理需要处理复杂的业务流程,与多种系统和API交互,并且需要从每次交互中学习和改进。传统的模型微调方法在这种场景下成本高昂且不够灵活,而ACE通过上下文工程提供了一种更加经济和高效的解决方案。

金融服务自动化

在金融服务领域,ACE展现了处理复杂监管要求和专业知识的能力。通过在XBRL文档处理和金融分析任务中的优异表现,ACE证明了其在高度专业化领域的应用潜力。金融机构可以利用ACE构建能够持续学习和适应新法规要求的智能系统。

多模态代理系统

虽然当前研究主要集中在文本处理上,但ACE的架构设计为多模态代理系统的发展奠定了基础。生成器可以扩展为处理图像、音频等多种模态输入,反思器可以从多模态交互中提取见解,策展器则负责维护跨模态的知识库。

技术挑战与解决方案

上下文长度管理

随着系统运行时间的增长,上下文长度可能会超出模型的处理能力。ACE通过增长与精炼机制解决了这个问题,系统可以智能地删除冗余信息,保留最有价值的知识点。此外,现代长上下文模型和KV缓存优化技术的发展也为处理大规模上下文提供了技术支持。

知识质量控制

在无监督学习场景中,如何确保提取的知识质量是一个重要挑战。ACE通过反思器的多轮精炼机制和策展器的结构化集成过程来提高知识质量。同时,系统还维护了有用性和有害性计数器,为知识质量评估提供了量化指标。

计算资源优化

虽然ACE避免了模型权重更新的高昂成本,但三个组件的协作仍需要一定的计算资源。研究团队通过使用相同的基础模型(非思考模式的DeepSeek-V3.1)来控制计算成本,并通过增量更新机制显著降低了适应延迟。

与现有技术的比较分析

相对于传统微调的优势

传统的模型微调方法需要大量的标注数据和计算资源,且难以快速适应新的任务需求。ACE通过上下文工程避免了这些限制,可以在运行时快速集成新知识,且不需要重新训练模型。这种方法特别适合需要快速部署和频繁更新的应用场景。

相对于提示工程的改进

传统的提示工程方法往往依赖人工设计和调优,难以实现自动化和规模化。ACE通过代理架构实现了提示的自动生成和优化,且能够从执行反馈中持续学习和改进。这种自动化能力大大降低了系统维护的人工成本。

相对于检索增强生成的互补性

检索增强生成(RAG)技术通过外部知识库增强模型能力,但通常是静态的知识检索。ACE的动态上下文构建与RAG形成了很好的互补关系,可以将检索到的知识动态整合到演进的上下文中,实现更加智能的知识管理。

未来发展方向与展望

多代理协作框架

未来的发展方向之一是将ACE扩展到多代理协作场景。在这种框架下,多个代理可以共享和交换上下文知识,形成分布式的学习网络。每个代理的专业知识可以通过上下文共享机制传播到整个网络,实现集体智能的涌现。

具体实现可以考虑建立代理间的上下文同步机制,允许代理选择性地共享有价值的上下文条目。同时,需要设计冲突解决机制来处理不同代理间可能存在的知识冲突。这种多代理协作框架将为构建大规模、分布式的AI系统提供新的可能性。

领域自适应优化

针对不同应用领域的特殊需求,ACE框架可以进一步优化其组件设计。例如,在医疗领域,反思器需要更加严格的证据验证机制;在法律领域,策展器需要考虑法条的层次结构和优先级关系。

未来可以开发领域特定的ACE变体,每个变体都针对特定领域的知识结构和推理模式进行优化。这种领域自适应能力将使ACE在专业应用中发挥更大的价值。

持续学习与知识蒸馏

ACE框架为实现真正的持续学习提供了新的途径。未来可以探索将上下文中积累的知识定期蒸馏到模型参数中,实现显式知识(上下文)和隐式知识(参数)的有机结合。

这种混合学习模式可以在保持快速适应能力的同时,逐步提升模型的基础能力。具体实现可以考虑设计知识蒸馏触发机制,当上下文中的某些知识模式足够稳定和重要时,自动触发蒸馏过程。

可解释性与可控性增强

ACE的结构化上下文设计为提升AI系统的可解释性提供了良好基础。未来可以开发更加丰富的可视化工具,帮助用户理解系统的学习过程和决策依据。

同时,可以引入用户干预机制,允许领域专家直接编辑和调整上下文内容,实现人机协作的知识管理。这种可控性将使ACE在需要高度可信的应用场景中更加实用。

跨模态知识整合

随着多模态大模型的发展,ACE框架可以扩展到处理图像、音频、视频等多种模态的信息。未来的研究可以探索如何在统一的上下文框架中表示和管理跨模态知识。

这种扩展需要设计新的知识表示格式和相似性度量方法,以支持不同模态信息的有效整合和检索。跨模态的ACE系统将为构建更加智能和全面的AI助手提供技术基础。

产业影响与商业价值

降低AI部署成本

ACE框架通过避免频繁的模型重训练,显著降低了AI系统的部署和维护成本。企业可以使用相对较小的开源模型,通过上下文工程达到与大型专有模型相当的性能水平。这种成本优势将加速AI技术在中小企业中的普及应用。

提升系统响应速度

传统的模型更新需要较长的训练时间,而ACE的上下文更新可以在几秒钟内完成。这种快速响应能力对于需要实时适应环境变化的应用场景具有重要价值,如金融交易、在线客服、智能制造等领域。

促进AI民主化

ACE框架降低了构建高性能AI系统的技术门槛。企业不再需要拥有大规模的机器学习团队和计算资源,就可以构建适合自身业务需求的智能系统。这种技术民主化将推动AI在更多行业和场景中的创新应用。

结论与启示

ACE(代理上下文工程)框架代表了大语言模型优化领域的一个重要突破。通过将优化重点从模型参数转移到输入上下文,ACE不仅实现了显著的性能提升,还大幅降低了系统的部署和维护成本。

这项研究的核心启示在于,AI系统的智能不仅来源于模型本身的能力,更来源于如何有效地组织和利用外部知识。ACE框架通过生成器、反思器和策展器的协作机制,实现了知识的自动发现、提炼和组织,为构建真正自主学习的AI系统提供了新的范式。

从技术发展趋势来看,ACE框架的成功预示着上下文工程将成为AI系统设计的重要组成部分。未来的AI系统将更加注重知识的动态管理和持续学习能力,而不仅仅是静态的模型性能。

对于产业界而言,ACE框架提供了一种更加经济和灵活的AI部署方案。企业可以基于开源模型和ACE框架构建满足自身需求的专业AI系统,而无需投入大量资源进行模型训练。这种技术路径将加速AI技术的产业化应用,推动更多创新解决方案的涌现。

相关资源

  • 论文原文:https://arxiv.org/abs/2510.04618
  • AppWorld基准测试:https://appworld.dev/leaderboard
  • Dynamic Cheatsheet项目:https://github.com/suzgunmirac/dynamic-cheatsheet

相关资讯

提示词工程、RAG之后,LangChain:上下文工程开始火了!

AI 时代,你可能听说过提示词工程、RAG、记忆等术语。 但是很少有人提及上下文工程(context engineering)。 其实,这一术语并不新鲜,近两年很多智能体构建者一直在关注这个事情。
6/26/2025 7:00:00 AM
机器之心

借助上下文工程优化任何AI代理框架

在人工智能代理技术飞速发展的当下,许多开发团队都深陷一系列棘手问题:代理时常出现幻觉输出、工作链中途断裂、提示词臃肿不堪,而团队往往将这些问题归咎于模型参数不足,一心寄望于更强大的模型能带来转机。 然而,事实却并非如此。 相关实践数据清晰地表明,73%的生产环境故障根源在于糟糕的上下文工程,而非模型本身的局限性。
8/8/2025 1:45:00 AM
大模型之路

提示词工程还没玩明白,又多了一个新词叫上下文工程!

这两年在AI圈子里,真的是新名词、新概念、新模型层出不穷,貌似隔段时间不出现一个新词感觉整个行业都退步了一样,大家都还在学习怎么使用好Prompt Engineering(提示词工程)的时候,这不Context Engineering(上下文工程)这个新词就出来了。 这篇内容来分享一下关于Context Engineering(上下文工程)这个新词的介绍、提示词工程和上下文工程的区别、以及二者在实际工作中的作用是什么,毕竟,现在AI圈子里面的新东西还是要跟上节奏学习的。 首先还是要先说一下这个背景,也就是为什么会提出一个Context Engineering(上下文工程)概念,以及它所解决的问题是啥。
9/8/2025 1:55:00 AM
DateForAI
  • 1