生成式AI的崛起29:提示词的“自我进化” - ACE 框架

作为软件工程师，我们这几年被 大型语言模型（LLM） 驱动的系统所展现出的强大推理能力彻底震撼了。它们能够充当“智能体（Agent）”，去执行复杂的、多步骤的业务流程，例如自动化分析财务报表，或在虚拟应用界面上完成用户操作。

然而，当我们尝试将这些系统投入到实际的复杂任务中时，我们很快就碰到了一个令人沮丧的瓶颈：系统缺乏“经验沉淀”和“自我进化”的能力。

一个系统如果在一个边缘案例上犯了一个配置错误（例如 API 权限问题），它往往会在下次遇到同样情况时，一遍又一遍地重复同样的错误。

我们知道，要让这些系统表现得更好，最有效的方法之一就是不断优化给它的 “指令”，也就是我们常说的 System Prompt（系统提示词） 或 Memory（记忆）。但是传统的提示词优化机制很快就遇到了两大顽固的挑战：“简洁偏向”（Brevity Bias 和 “上下文坍塌”（Context Collapse。这就是为什么 ACE 框架（Agentic Context Engineering，智能体上下文工程） 如此重要——它为系统引入了一种像工程团队一样，系统性、终身地积累和整理经验的能力。

这个框架来自于2025 年10月份一份来自斯坦福大学、UC伯克利等的团队提出的论文《Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models》。ACE 框架通过引入三个专业化的智能体角色——生成器（Generator）、反射器（Reflector） 和 策展人（Curator），实现了系统在执行任务时，能够自动复盘、提炼经验，并以增量方式更新自己的提示词和策略文件。

在深入 ACE 这个“经验沉淀系统”之前，我们得先理解以前的 “提示词优化” 机制为什么会失效。我们对系统的提示词进行优化，本质上是在用一套反馈机制来编辑一份 “系统提示词”。

1. 问题一：简洁偏向（Brevity Bias）

想象你正在维护一个关键的微服务。你花大量时间，给它的自动化部署脚本写了一个长达 500 行的配置文件（System Prompt），里面包含了各种网络重试、环境兼容、日志处理的详细配置和逻辑。

结果，你使用的“配置优化工具”（由 LLM 驱动）却倾向于认为：“这份文件太长了，应该用一个 50 行的摘要替代它。”

后果： 这个优化后的“摘要”虽然简洁，却把那些处理 “边缘情况”（Edge Cases）的 关键细节 全部删除了。例如，如何在网络抖动时进行指数退避重试的逻辑，或者在特定操作系统版本下需要使用哪个旧库的指令。配置变短了，但系统的 鲁棒性（Robustness） 却断崖式下降。

2. 问题二：策略文件坍塌（Context Collapse）

这是最致命的缺陷，也是 ACE 框架诞生的核心驱动力。

想象你的系统已经运行了一年，积累了一份包含数百条 “操作 SOP”（标准操作流程）的详细手册。你使用的 “自动化编辑工具” 每次更新时，都要求你：把旧手册的全部内容交给它，让它重新输出一份完整的新手册。

后果： 你的编辑工具（由 LLM 驱动）在处理如此巨大的文本时，会试图“压缩”信息。它会把数百条详细的 SOP 压缩成几段笼统的概述。当系统下次执行任务时，它发现：“我的手册上只写了‘确保权限’，而没有写‘注意：确保权限需要调用 X 机器的 check_user_role 接口，且返回码必须是 200’。”
实质： 在整体重写的过程中，大量的细节、精确的措辞和领域知识被平滑（Smooth out）和擦除（Erode）了。系统的经验不是在积累，而是在不断地自我遗忘。

这就是为什么传统的配置优化只能做到“短时适应”，但无法支持系统进行 “终身学习” 和 “知识积累”。

ACE（Agentic Context Engineering）框架的设计灵感来源于一个工程团队进行 “迭代开发”和“知识管理” 的自然过程：执行 $\rightarrow$ 复盘 $\rightarrow$ 知识库更新。

它将系统的 “策略文件”（Context）视为一本不断进化的 “经验手册”（Evolving Playbook），并通过精妙的“模块化”设计，彻底避开了“策略文件坍塌”的陷阱。

ACE 框架的核心是三个专业化的、由大模型驱动的系统角色，它们共同协作，实现经验的自动化沉淀：

1. 🎯 角色一：生成器（Generator）— “执行引擎”

对应类比： 你的 CI/CD 流程中的自动化部署脚本。
职能： 这是一个最直接的角色，它就像一个被指派去完成任务的行动派。
工作方式：
- 它接收用户的 任务（Task），例如“部署 v3.2 版本到预发布环境”。
- 它查阅当前的 经验手册（Playbook），严格遵循其中的策略和配置，来生成一套可执行的指令序列（Trajectory），并驱动系统去完成任务。
核心： 它的重点是高效地执行当前的策略，不负责改进策略。

2. 🧐 角色二：反射器（Reflector）— “复盘分析师”

对应类比： 你们团队的事后复盘（Post-Mortem）会议记录人。
职能： 这是一个关键的学习角色，它就像一个自我纠错的导师。
工作方式：
1. 它接收生成器生成的指令序列。
2. 它接收来自系统的运行反馈（Feedback）：例如 API 的状态码、日志中的错误信息，或任务完成情况。
3. 它分析失败的原因，并提炼出一个核心洞察，形成一个具体的、可操作的改进建议。
例子： 如果一个支付流程智能体总是因为参数格式错误而失败，反射器的建议可能是：“策略改进： 在调用支付 API 前，必须使用 format_currency(amount) 函数将所有金额转换为两位小数的字符串。”
核心： 从实践结果中，提取出可供知识沉淀的经验。

3. ✍️ 角色三：策展人（Curator）— “知识管理员与版本控制”

对应类比： 负责维护公司 内部 Wiki 或知识库的专家，只进行增量更新。
职能： 这是解决“策略文件坍塌”的英雄，它是一个严谨的知识编辑和归档员。
工作方式：
1. 它接收复盘分析师提炼出的新策略（New Insight）。
2. 它将这个新策略转换为一个或多个结构化、原子化的条目，这被称为 Delta Contexts（增量上下文）。
3. 它将这些 增量上下文 精准地插入或追加到主经验手册中，而不是进行整体重写。
核心： “增量更新”是关键。策展人确保了过去积累的每一个宝贵细节（如特定的错误码处理逻辑）都不会在更新过程中丢失。

🧱 增量上下文（Delta Contexts）的力量：像 Git 一样管理知识

我们必须理解 增量上下文（Delta Contexts），因为它们是 ACE 框架能够实现“终身学习”的秘诀，它们的工作方式和我们熟悉的 Git 版本控制系统有异曲同工之妙。

1. Delta Contexts：最小化的 Pull Request (PR)

想象你的策略手册是一份庞大复杂的代码库。

传统的整体重写就像你每次都提交一个包含所有文件修改的巨大 Commit，并且没有 Code Review，风险极高。
ACE 的策展人则只提交一个最小化的 Pull Request (PR)：
- 原子性（Atomicity）： 每个 Delta Context 只包含一个明确的经验教训或一个策略变更。
- 知识保真度（Fidelity）： 因为改动小，LLM 在将新条目合并到 Playbook 时，可以更清晰地思考它与现有知识的关系，保证新旧知识的逻辑一致性。

2. 核心对比：整体重写 vs 增量更新

属性	Monolithic Rewriting (传统方法)	Incremental Adaptation (ACE / Delta Contexts)
知识更新方式	重写整个策略文件。	只添加/修改一条或几条新策略（Delta）。
知识丢失风险	极高 (策略文件坍塌)，细节容易被 LLM 总结性地抹去。	极低，旧的、详细的策略条目得以保留。
工程效率	低，每次都需处理和重新生成所有历史文本。	高，只处理新生成的极少量文本。
类比	每次修改都重新打印一本 500 页的书。	每次只更新书中的一页或一行，并记录版本差异（Diff）。

通过这种 结构化的、增量式的 知识积累，ACE 确保了系统的经验手册（Playbook）能够随着每一次任务的执行而持续、稳定地成长，不会在积累到一定程度时突然“崩溃”或“失忆”。

⚙️ 工程落地：ACE 的两种学习模式

ACE 提供的两种学习模式，完美契合了软件工程中“开发优化”和“生产运行”两个阶段的需求。

1. 离线适应（Offline Adaptation）：打造黄金配置

工程目的： 在系统正式上线前，找到并固化（Freeze）一套最佳的初始配置/System Prompt。
应用场景： 开发环境（Dev/Staging）。我们使用大量的测试数据来运行 ACE 的 生成器 $\rightarrow$ 反射器 $\rightarrow$ 策展人 循环。
输出物： 经过 ACE 优化后、包含几十条高质量策略的 “黄金版 System Prompt”。这个 Prompt 一旦确定，就不会在生产环境（Production）中改变，作为系统的基线（Baseline）。

2. 在线适应（Online Adaptation）：生产环境下的终身学习

工程目的： 让系统在生产环境中，边运行边学习，自我修复 Bug。
应用场景： 生产环境（Production），或者需要处理动态、未知环境的智能体。
流程： 当系统在生产环境中遇到一个 Bug（即任务失败）时，反射器立即介入复盘，策展人立即将修复 Bug 的新策略（Delta Context）实时追加到正在使用的 Playbook 中。
价值： 实现了 自适应的 Bug 修复 和 持续的策略进化。系统不需要等待工程师进行下一次部署，就能自行解决它刚发现的 Bug，这极大地提高了系统的响应速度和自治能力。

资源

论文原文：Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

#reading

生成式AI的崛起29:提示词的“自我进化” - ACE 框架

1. 问题一：简洁偏向（Brevity Bias）

2. 问题二：策略文件坍塌（Context Collapse）

1. 🎯 角色一：生成器（Generator）— “执行引擎”

2. 🧐 角色二：反射器（Reflector）— “复盘分析师”

3. ✍️ 角色三：策展人（Curator）— “知识管理员与版本控制”

🧱 增量上下文（Delta Contexts）的力量：像 Git 一样管理知识

1. Delta Contexts：最小化的 Pull Request (PR)

2. 核心对比：整体重写 vs 增量更新

⚙️ 工程落地：ACE 的两种学习模式

1. 离线适应（Offline Adaptation）：打造黄金配置

2. 在线适应（Online Adaptation）：生产环境下的终身学习

资源

Recent Update

Trending Tags

Contents

Trending Tags

生成式AI的崛起29:提示词的“自我进化” - ACE 框架

1. 问题一：简洁偏向（Brevity Bias）

2. 问题二：策略文件坍塌（Context Collapse）

1. 🎯 角色一：生成器（Generator）— “执行引擎”

2. 🧐 角色二：反射器（Reflector）— “复盘分析师”

3. ✍️ 角色三：策展人（Curator）— “知识管理员与版本控制”

🧱 增量上下文（Delta Contexts）的力量：像 Git 一样管理知识

1. Delta Contexts：最小化的 Pull Request (PR)

2. 核心对比：整体重写 vs 增量更新

⚙️ 工程落地：ACE 的两种学习模式

1. 离线适应（Offline Adaptation）：打造黄金配置

2. 在线适应（Online Adaptation）：生产环境下的终身学习

资源

Recent Update

Trending Tags

Contents

Further Reading

当你失去写的能力的时候，你也失去了一部分思考的能力

阅读：吴军阅读与写作讲义

阅读：原来孩子这样学习会上瘾

Trending Tags