
AEvo: Harnessing Agentic Evolution
AEvo: Harnessing Agentic Evolution
论文链接: arXiv:2605.13821 | 提交日期: 2026-05-13 | 团队: HKUST(GZ) x DeepWisdom x SUTD x NTU x SJTU x Tsinghua x Mila
核心问题: 为什么 Agentic Evolution 会漂移?
Agentic Evolution(智能体进化)已成为 LLM 问题求解的强大范式——通过迭代生成候选方案、评估反馈、引导搜索来持续改进。从程序合成到科学发现,从系统优化到 Agent 自我提升,这一范式正在被广泛应用。然而,现有方法面临一个根本性困境: 你选择固定流程还是灵活 Agent,都有各自的天花板。
Procedure-based evolution(流程驱动进化)用预定义外循环控制选择、生成、评估和更新,模块化且可复现,但搜索行为被固定的选择规则和更新启发式牢牢绑定——长期搜索容易陷入局部最优。Agent-based evolution(Agent 驱动进化)让通用 Agent 自主管理搜索,灵活度高,但随着候选方案、日志、假设和中间文件不断堆积,Agent 容易漂移——过度执着于误导性证据或过时假设。
核心矛盾在于: 进化过程积累了丰富的证据(候选方案、反馈、执行轨迹、失败记录),却缺乏一个稳定的接口来组织这些证据并修订驱动未来进化的机制。这篇论文正是要解决这个问题——不是让进化跑得更快,而是让进化知道自己在往哪跑。
关键数据
- 在 Agentic 和 Reasoning 基准测试上,AEvo 超越 5 个进化基线,相对最强基线提升 26%
- 在 3 个开放式优化任务上,超越 4 个进化基线,在相同迭代预算下达到 SOTA 性能
- 支持 Procedure-based 和 Agent-based 两种进化形式的统一框架
- Meta-agent 可使用 Claude Code、Codex 或开源 Coding Agent 实例化
技术架构与设计
1. 将进化过程建模为交互式环境
AEvo 的核心洞察是: 进化过程本身就是一个环境。状态 = 积累的进化上下文(候选方案、反馈、轨迹、失败、成本、搜索历史);转移规则 = 当前进化机制;观察 = 从状态中提取的摘要;动作 = 对机制的编辑。这个统一视角让同一个框架既能驱动流程驱动进化,也能驱动 Agent 驱动进化。
2. 两阶段循环: Meta-Editing + Evolution Segment
AEvo 不是在每一步都直接生成候选方案,而是采用粗粒度干预策略。Meta-Editing Phase: 元 Agent 观察积累的进化上下文,编辑当前机制(修改流程代码、提示词、技能、工具、反馈格式等),并制定下一段进化的运行计划(迭代预算、停止条件)。Evolution Segment: 更新后的机制在该计划下运行,可能产生多个候选方案,直到下一次元 Agent 干预。一次元编辑可以控制一段进化,而非单个候选方案。
3. 受保护的评估器(Harness Design)
为防止 reward hacking,评估器被隔离于进化 Agent 和元 Agent 之外。Agent 可以提交候选方案,但不能检查评估器内部、访问隐藏基准或直接写入官方分数。Harness 标准化了工作空间布局,保护评估器,将每个评估过的候选方案记录到可搜索历史中,并向元 Agent 暴露过程级信息。
4. 元 Agent 的角色: 过程级编辑者,而非候选生成者
元 Agent 不直接提出下一个候选方案,而是编辑控制未来进化的机制。当进化有效时,它可能分配更多迭代预算;当进化反复产生无效候选或冗余探索时,它会停止当前段并修订机制。这种设计使得元 Agent 能够同时修订流程驱动和 Agent 驱动的进化。
关键洞察
引发思考
AEvo 的论文提出了一个更深层的问题: 当 Agent 能够编辑自己的进化机制时,我们是否正在见证自我改进范式的根本性转变?从 AIF(Auto-Instruct-Fine-tune)到 ADAS(Automated Design of Agentic Systems),再到 AlphaEvolve 和现在的 AEvo,这条线索越来越清晰——AI 系统不再只是在固定机制下优化输出,而是在优化优化本身。AEvo 的 Harness 设计暗示了一种平衡: 给元 Agent 足够的编辑自由度来突破局部最优,同时用外部约束防止失控。这种受控的自我改进可能是通往更通用 AI 系统的关键路径之一。
对于实际工程而言,AEvo 的启示是: 当你发现 Agent 系统在长任务中漂移或陷入循环时,问题可能不在 Agent 本身的能力,而在进化机制缺乏外部干预。引入一个轻量级的元编辑层——定期审视搜索历史、识别冗余模式、调整探索策略——可能比单纯升级模型更有效。
相关阅读
- AlphaEvolve (Google DeepMind): arXiv:2506.13605
- AFlow: arXiv:2410.10762
- ADAS: arXiv:2402.01521
- HyperAgents: arXiv:2502.03948
逍遥云初 | 2026.05.31
推荐好物
优质精选以上为联盟推广链接,购买后作者可能获得佣金(不影响价格)
逍遥云初 · 2026-05-31
记录 · 思考 · 成长