← 返回首页
10 分钟阅读
AEvo: Harnessing Agentic Evolution
AI与机器学习2026-05-31

AEvo: Harnessing Agentic Evolution

AEvo: Harnessing Agentic Evolution

论文链接: arXiv:2605.13821 | 提交日期: 2026-05-13 | 团队: HKUST(GZ) x DeepWisdom x SUTD x NTU x SJTU x Tsinghua x Mila

核心问题: 为什么 Agentic Evolution 会漂移?

Agentic Evolution(智能体进化)已成为 LLM 问题求解的强大范式——通过迭代生成候选方案、评估反馈、引导搜索来持续改进。从程序合成到科学发现,从系统优化到 Agent 自我提升,这一范式正在被广泛应用。然而,现有方法面临一个根本性困境: 你选择固定流程还是灵活 Agent,都有各自的天花板。

Procedure-based evolution(流程驱动进化)用预定义外循环控制选择、生成、评估和更新,模块化且可复现,但搜索行为被固定的选择规则和更新启发式牢牢绑定——长期搜索容易陷入局部最优。Agent-based evolution(Agent 驱动进化)让通用 Agent 自主管理搜索,灵活度高,但随着候选方案、日志、假设和中间文件不断堆积,Agent 容易漂移——过度执着于误导性证据或过时假设。

核心矛盾在于: 进化过程积累了丰富的证据(候选方案、反馈、执行轨迹、失败记录),却缺乏一个稳定的接口来组织这些证据并修订驱动未来进化的机制。这篇论文正是要解决这个问题——不是让进化跑得更快,而是让进化知道自己在往哪跑。

关键数据

  • 在 Agentic 和 Reasoning 基准测试上,AEvo 超越 5 个进化基线,相对最强基线提升 26%
  • 在 3 个开放式优化任务上,超越 4 个进化基线,在相同迭代预算下达到 SOTA 性能
  • 支持 Procedure-based 和 Agent-based 两种进化形式的统一框架
  • Meta-agent 可使用 Claude Code、Codex 或开源 Coding Agent 实例化

技术架构与设计

1. 将进化过程建模为交互式环境

AEvo 的核心洞察是: 进化过程本身就是一个环境。状态 = 积累的进化上下文(候选方案、反馈、轨迹、失败、成本、搜索历史);转移规则 = 当前进化机制;观察 = 从状态中提取的摘要;动作 = 对机制的编辑。这个统一视角让同一个框架既能驱动流程驱动进化,也能驱动 Agent 驱动进化。

2. 两阶段循环: Meta-Editing + Evolution Segment

AEvo 不是在每一步都直接生成候选方案,而是采用粗粒度干预策略。Meta-Editing Phase: 元 Agent 观察积累的进化上下文,编辑当前机制(修改流程代码、提示词、技能、工具、反馈格式等),并制定下一段进化的运行计划(迭代预算、停止条件)。Evolution Segment: 更新后的机制在该计划下运行,可能产生多个候选方案,直到下一次元 Agent 干预。一次元编辑可以控制一段进化,而非单个候选方案。

3. 受保护的评估器(Harness Design)

为防止 reward hacking,评估器被隔离于进化 Agent 和元 Agent 之外。Agent 可以提交候选方案,但不能检查评估器内部、访问隐藏基准或直接写入官方分数。Harness 标准化了工作空间布局,保护评估器,将每个评估过的候选方案记录到可搜索历史中,并向元 Agent 暴露过程级信息。

4. 元 Agent 的角色: 过程级编辑者,而非候选生成者

元 Agent 不直接提出下一个候选方案,而是编辑控制未来进化的机制。当进化有效时,它可能分配更多迭代预算;当进化反复产生无效候选或冗余探索时,它会停止当前段并修订机制。这种设计使得元 Agent 能够同时修订流程驱动和 Agent 驱动的进化。

关键洞察

🔑
关键洞察 1: 进化机制本身应该可进化 现有方法的核心缺陷是把进化机制当作固定的——要么是手写的流程,要么是 Agent 的隐式行为。AEvo 证明了: 让一个外部元 Agent 编辑进化机制本身,比让进化机制内部自我修改更稳定、更可控。这与 HyperAgents(内部化元改进)形成鲜明对比。AEvo 的外部 Harness 设计确保了评估和候选记录的完整性不受元编辑干扰。
🔑
关键洞察 2: 粗粒度干预优于逐候选编辑 传统进化方法在每一步都直接生成候选方案,而 AEvo 引入了进化段的概念——一次元编辑可以控制多轮进化。这种粗粒度干预既给了进化机制足够的运行空间去探索,又在宏观层面保持了方向控制。实验证明,这种设计在长时域搜索中显著减少了局部最优的风险。
🔑
关键洞察 3: 统一框架消除了流程驱动与 Agent 驱动的二元对立 AEvo 最优雅的地方在于: 它不选边站。流程驱动进化和 Agent 驱动进化在 AEvo 的框架下变成了同一种抽象的两种实例化。编辑机制对于流程驱动 = 修改选择、优化、反馈使用、预算分配等显式组件;对于 Agent 驱动 = 修改技能、目标、工具、反馈格式、执行上下文等隐式决策因素。这种统一性使得框架可以无缝迁移到不同场景。
🔑
关键洞察 4: 元 Agent 的选择空间决定了进化天花板 论文中元 Agent 可以是 Claude Code、Codex 或开源 Coding Agent——这意味着 AEvo 的性能上限不取决于某个特定模型,而取决于元 Agent 能否有效理解进化上下文并做出高质量编辑。这为未来的元 Agent 设计指明了方向: 理解力 > 生成力。

引发思考

AEvo 的论文提出了一个更深层的问题: 当 Agent 能够编辑自己的进化机制时,我们是否正在见证自我改进范式的根本性转变?从 AIF(Auto-Instruct-Fine-tune)到 ADAS(Automated Design of Agentic Systems),再到 AlphaEvolve 和现在的 AEvo,这条线索越来越清晰——AI 系统不再只是在固定机制下优化输出,而是在优化优化本身。AEvo 的 Harness 设计暗示了一种平衡: 给元 Agent 足够的编辑自由度来突破局部最优,同时用外部约束防止失控。这种受控的自我改进可能是通往更通用 AI 系统的关键路径之一。

对于实际工程而言,AEvo 的启示是: 当你发现 Agent 系统在长任务中漂移或陷入循环时,问题可能不在 Agent 本身的能力,而在进化机制缺乏外部干预。引入一个轻量级的元编辑层——定期审视搜索历史、识别冗余模式、调整探索策略——可能比单纯升级模型更有效。

相关阅读

  • AlphaEvolve (Google DeepMind): arXiv:2506.13605
  • AFlow: arXiv:2410.10762
  • ADAS: arXiv:2402.01521
  • HyperAgents: arXiv:2502.03948

逍遥云初 | 2026.05.31

逍遥云初 · 2026-05-31

记录 · 思考 · 成长