ACE框架：基于上下文演化的大模型自我改进方法

<p align="right"><font color="#3f3f3f">2025年10月12日</font></p> ## 研究背景大语言模型应用（如智能体和领域特定推理）越来越依赖上下文适配——通过修改输入的指令、策略或证据来改进性能,而非更新模型权重。这种方法具有明显优势：上下文具有可解释性，可以在运行时快速整合新知识，并能在复合系统的不同模块间共享。然而，现有的上下文适配方法面临两个核心限制。 ## 核心问题 ### 简洁性偏差（Brevity Bias）许多提示词优化器倾向于生成简洁、广泛适用的指令，而非全面的知识积累。例如，GEPA等方法强调简洁性，但这种抽象可能会遗漏领域特定的启发式规则、工具使用指南或常见失败模式。这在智能体和知识密集型应用中尤为突出。 ### 上下文崩溃（Context Collapse）依赖LLM进行整体重写的方法往往会随时间退化为更短、信息量更少的摘要，导致性能急剧下降。研究团队在AppWorld基准测试中观察到，在第60步时上下文包含18,282个token且准确率为66.7%，但下一步突然崩溃至122个token，准确率降至57.1%，甚至低于无适配的基线准确率63.7%。 ## 技术方案 ACE将上下文视为不断演化的"策略手册"，通过生成、反思和整理的模块化过程来积累、精炼和组织策略。框架采用三角色分工架构： **Generator（生成器）**：为新查询生成推理轨迹，揭示有效策略和常见陷阱 **Reflector（反思器）**：分析这些轨迹以提取经验教训，可选择进行多轮迭代优化 **Curator（整理器）**：将这些教训综合为紧凑的增量条目，通过轻量级的非LLM逻辑合并到现有上下文中 ### 关键创新 **增量更新机制** ACE将上下文表示为结构化的项目符号集合，每个条目包含元数据（唯一标识符、有用/有害计数器）和内容（可复用策略、领域概念或常见失败模式）。这种设计实现了局部化更新、细粒度检索和增量适配。 **增长与精炼机制** 除了增量增长，ACE通过定期或延迟精炼确保上下文保持紧凑和相关性。在增长-精炼过程中，带有新标识符的条目被追加，现有条目被原地更新，通过语义嵌入比较进行去重。 ## 实验评估 ### 测试基准研究团队在两类任务上评估ACE： **智能体任务**：AppWorld基准测试，涉及API理解、代码生成和环境交互 **领域特定任务**：金融分析（FiNER和Formula），需要掌握XBRL等专业知识 ### 性能表现 ACE在智能体任务上平均提升10.6%，在领域特定基准测试上平均提升8.6%。更具体的数据显示：在AppWorld基准测试中，ReAct + ACE在离线设置下相比ReAct + ICL和ReAct + GEPA分别提升了12.3%和11.9%。值得注意的是，ACE能够在没有标注监督的情况下有效适配，仅依靠执行反馈，在此设置下相比ReAct基线平均提升14.8%。在AppWorld排行榜上（截至2025年9月20日），ReAct + ACE（59.4%）与排名第一的IBM CUGA（60.3%，基于GPT-4.1的生产级智能体）持平，尽管使用的是更小的开源模型DeepSeek-V3.1。 ### 效率分析在AppWorld的离线适配中，ACE相比GEPA减少了82.3%的适配延迟和75.1%的推理次数。在FiNER的在线适配中，ACE相比Dynamic Cheatsheet减少了91.5%的适配延迟和83.6%的token成本。 ## 设计验证消融实验证实了设计选择的必要性：使用Reflector和多轮迭代优化的完整ACE框架在AppWorld上达到59.4%的平均准确率，而移除多轮优化后降至56.8%，同时移除Reflector和多轮优化后进一步降至55.1%。 ## 局限性 ACE的一个潜在限制是依赖于合理强大的Reflector：如果Reflector无法从生成轨迹或结果中提取有意义的洞察，构建的上下文可能变得嘈杂甚至有害。当没有ground-truth监督或可靠执行信号时，ACE和Dynamic Cheatsheet的性能都可能下降。在这种情况下，虚假或误导性信号可能污染构建的上下文。这表明，虽然ACE在丰富反馈下表现稳健（如代码执行结果），但其有效性依赖于可靠反馈信号的可用性。并非所有应用都需要丰富或详细的上下文。对于像Game of 24这样策略固定的游戏，可能只需要一条可复用规则，额外的上下文反而冗余。 ## 研究意义这项研究提出了一种新的范式：将"上下文工程"定位为参数更新的一级替代方案——维护一个持久、精心策划的策略手册，积累特定任务的策略。从系统角度看，虽然ACE产生的上下文比GEPA等方法更长，但这并不意味着线性增加的推理成本或GPU内存使用。现代服务基础设施通过KV缓存的复用、压缩和卸载等技术，越来越优化长上下文工作负载。对于在线和持续学习场景，ACE提供了一种比传统模型微调更灵活和高效的替代方案。由于上下文是人类可解释的，ACE还支持选择性遗忘——无论是出于隐私或法律限制，还是当领域专家识别出过时或错误的信息时。 --- **论文信息** 作者：Qizheng Zhang等（斯坦福大学、SambaNova Systems、UC Berkeley）发布时间：2025年10月6日论文链接：arXiv:2510.04618