逍遥云初

AEvo: Harnessing Agentic Evolution

论文链接: arXiv:2605.13821 | 提交日期: 2026-05-13 | 团队: HKUST(GZ) x DeepWisdom x SUTD x NTU x SJTU x Tsinghua x Mila

✦

核心问题: 为什么 Agentic Evolution 会漂移?

Agentic Evolution（智能体进化）已成为 LLM 问题求解的强大范式——通过迭代生成候选方案、评估反馈、引导搜索来持续改进。从程序合成到科学发现，从系统优化到 Agent 自我提升，这一范式正在被广泛应用。然而，现有方法面临一个根本性困境: 你选择固定流程还是灵活 Agent，都有各自的天花板。

Procedure-based evolution（流程驱动进化）用预定义外循环控制选择、生成、评估和更新，模块化且可复现，但搜索行为被固定的选择规则和更新启发式牢牢绑定——长期搜索容易陷入局部最优。Agent-based evolution（Agent 驱动进化）让通用 Agent 自主管理搜索，灵活度高，但随着候选方案、日志、假设和中间文件不断堆积，Agent 容易漂移——过度执着于误导性证据或过时假设。

核心矛盾在于: 进化过程积累了丰富的证据（候选方案、反馈、执行轨迹、失败记录），却缺乏一个稳定的接口来组织这些证据并修订驱动未来进化的机制。这篇论文正是要解决这个问题——不是让进化跑得更快，而是让进化知道自己在往哪跑。

✦

关键数据

在 Agentic 和 Reasoning 基准测试上，AEvo 超越 5 个进化基线，相对最强基线提升 26%
在 3 个开放式优化任务上，超越 4 个进化基线，在相同迭代预算下达到 SOTA 性能
支持 Procedure-based 和 Agent-based 两种进化形式的统一框架
Meta-agent 可使用 Claude Code、Codex 或开源 Coding Agent 实例化

✦

技术架构与设计

1. 将进化过程建模为交互式环境

AEvo 的核心洞察是: 进化过程本身就是一个环境。状态 = 积累的进化上下文（候选方案、反馈、轨迹、失败、成本、搜索历史）；转移规则 = 当前进化机制；观察 = 从状态中提取的摘要；动作 = 对机制的编辑。这个统一视角让同一个框架既能驱动流程驱动进化，也能驱动 Agent 驱动进化。

2. 两阶段循环: Meta-Editing + Evolution Segment

AEvo 不是在每一步都直接生成候选方案，而是采用粗粒度干预策略。Meta-Editing Phase: 元 Agent 观察积累的进化上下文，编辑当前机制（修改流程代码、提示词、技能、工具、反馈格式等），并制定下一段进化的运行计划（迭代预算、停止条件）。Evolution Segment: 更新后的机制在该计划下运行，可能产生多个候选方案，直到下一次元 Agent 干预。一次元编辑可以控制一段进化，而非单个候选方案。

3. 受保护的评估器（Harness Design）

为防止 reward hacking，评估器被隔离于进化 Agent 和元 Agent 之外。Agent 可以提交候选方案，但不能检查评估器内部、访问隐藏基准或直接写入官方分数。Harness 标准化了工作空间布局，保护评估器，将每个评估过的候选方案记录到可搜索历史中，并向元 Agent 暴露过程级信息。

4. 元 Agent 的角色: 过程级编辑者，而非候选生成者

元 Agent 不直接提出下一个候选方案，而是编辑控制未来进化的机制。当进化有效时，它可能分配更多迭代预算；当进化反复产生无效候选或冗余探索时，它会停止当前段并修订机制。这种设计使得元 Agent 能够同时修订流程驱动和 Agent 驱动的进化。

✦

关键洞察

🔑

关键洞察 1: 进化机制本身应该可进化现有方法的核心缺陷是把进化机制当作固定的——要么是手写的流程，要么是 Agent 的隐式行为。AEvo 证明了: 让一个外部元 Agent 编辑进化机制本身，比让进化机制内部自我修改更稳定、更可控。这与 HyperAgents（内部化元改进）形成鲜明对比。AEvo 的外部 Harness 设计确保了评估和候选记录的完整性不受元编辑干扰。

🔑

关键洞察 2: 粗粒度干预优于逐候选编辑传统进化方法在每一步都直接生成候选方案，而 AEvo 引入了进化段的概念——一次元编辑可以控制多轮进化。这种粗粒度干预既给了进化机制足够的运行空间去探索，又在宏观层面保持了方向控制。实验证明，这种设计在长时域搜索中显著减少了局部最优的风险。

🔑

关键洞察 3: 统一框架消除了流程驱动与 Agent 驱动的二元对立 AEvo 最优雅的地方在于: 它不选边站。流程驱动进化和 Agent 驱动进化在 AEvo 的框架下变成了同一种抽象的两种实例化。编辑机制对于流程驱动 = 修改选择、优化、反馈使用、预算分配等显式组件；对于 Agent 驱动 = 修改技能、目标、工具、反馈格式、执行上下文等隐式决策因素。这种统一性使得框架可以无缝迁移到不同场景。

🔑

关键洞察 4: 元 Agent 的选择空间决定了进化天花板论文中元 Agent 可以是 Claude Code、Codex 或开源 Coding Agent——这意味着 AEvo 的性能上限不取决于某个特定模型，而取决于元 Agent 能否有效理解进化上下文并做出高质量编辑。这为未来的元 Agent 设计指明了方向: 理解力 > 生成力。

✦

引发思考

AEvo 的论文提出了一个更深层的问题: 当 Agent 能够编辑自己的进化机制时，我们是否正在见证自我改进范式的根本性转变？从 AIF（Auto-Instruct-Fine-tune）到 ADAS（Automated Design of Agentic Systems），再到 AlphaEvolve 和现在的 AEvo，这条线索越来越清晰——AI 系统不再只是在固定机制下优化输出，而是在优化优化本身。AEvo 的 Harness 设计暗示了一种平衡: 给元 Agent 足够的编辑自由度来突破局部最优，同时用外部约束防止失控。这种受控的自我改进可能是通往更通用 AI 系统的关键路径之一。

对于实际工程而言，AEvo 的启示是: 当你发现 Agent 系统在长任务中漂移或陷入循环时，问题可能不在 Agent 本身的能力，而在进化机制缺乏外部干预。引入一个轻量级的元编辑层——定期审视搜索历史、识别冗余模式、调整探索策略——可能比单纯升级模型更有效。

✦

AEvo: Harnessing Agentic Evolution

AEvo: Harnessing Agentic Evolution

核心问题: 为什么 Agentic Evolution 会漂移?

关键数据

技术架构与设计

1. 将进化过程建模为交互式环境

2. 两阶段循环: Meta-Editing + Evolution Segment

3. 受保护的评估器（Harness Design）

4. 元 Agent 的角色: 过程级编辑者，而非候选生成者

关键洞察

引发思考

相关阅读

推荐好物

京东好物

AI领航·智慧未来

京东精选好物 1