
SkillOpt:微软研究院的 Agent 技能自进化优化器
SkillOpt: Executive Strategy for Self-Evolving Agent Skills
📌 核心问题:Agent 技能如何像神经网络权重一样被训练?
当前 AI Agent 的技能(Skill)获取方式主要有三种:人工手写规则、一次性 LLM 生成、或通过松散的自修订机制迭代。但这三种方式有一个共同缺陷——它们都不像深度学习优化器那样对技能本身进行系统性的、可复现的训练。技能的质量高度依赖初始 prompt 的质量,且缺乏稳定的改进保障。
SkillOpt 论文提出了一个关键洞察:Agent 的技能应该被视为「冻结 Agent 的外部状态」,用与权重空间优化相同的纪律来训练。这就好比把 Agent 的 prompt/技能文档当作一个可训练的「参数」,用一个独立的优化器模型来迭代改进它,而不是靠 LLM 的「灵感」随机生成。
这个问题为什么重要?因为随着 Coding Agent(如 Claude Code、Codex)在真实软件工程中的渗透,Agent 的核心竞争力正从「模型能力」转向「环境设计能力」——也就是 Harness Engineering 中强调的「约束比代码更贵」。SkillOpt 提供了一个让这些约束/技能自动进化的系统化方案。
📊 关键数据:全面碾压所有竞品
GPT-5.5 上的性能提升:
- Direct Chat 模式:平均准确率提升 +23.5 个百分点
- Codex Agent 循环:提升 +24.8 个百分点
- Claude Code 环境:提升 +19.1 个百分点
迁移实验表明,优化后的技能文档可以跨模型规模、跨执行环境(Codex ↔ Claude Code)、甚至迁移到相近的数学 benchmark 而无需重新优化,展现出强大的泛化能力。
🏗️ 技术架构与设计
- 核心思路:将 Agent 技能建模为「文本空间中的可训练状态」,而非固定的 prompt 模板。一个独立的优化器模型对技能文档执行 bounded add/delete/replace 编辑操作。
- 验证驱动:每次编辑必须在 held-out 验证集上严格提升分数才被接受,类似深度学习中的 validation-based early stopping。
- 稳定训练机制:引入「文本学习率预算」控制单次编辑幅度、「被拒编辑缓冲区」防止重复尝试、以及 epoch 级别的慢速/元更新保证收敛稳定性。
- 零推理开销:优化过程完全离线,部署时技能文档作为静态上下文注入,不增加任何额外的模型调用。
- 广泛兼容:支持 Direct Chat、Codex、Claude Code 三种执行环境,覆盖 7 个主流模型(GPT-5.5 等)。
🔑 关键洞察
1. 技能 ≠ Prompt,技能是可训练的外部状态
2. 文本空间优化器的可行性被验证
3. 技能的跨环境迁移能力
4. Harness Engineering 的自动化路径
💭 引发思考
SkillOpt 的出现标志着 Agent 工程从「手工作坊」向「自动化训练」的范式转移。当技能可以像模型权重一样被系统性地优化时,Agent 的核心竞争力将不再是「用了什么模型」,而是「拥有什么样的技能训练流程」。这与 Harness Engineering 的核心理念高度一致——约束比代码更贵,而 SkillOpt 让这些约束可以被自动优化。
但也有值得思考的问题:当技能文档被自动优化后,它是否还能被人类理解和调试?如果一个优化后的 AGENTS.md 中包含了人类无法理解的「trick」,这对代码可维护性和团队协作意味着什么?这可能是 SkillOpt 在实际工程落地中需要解决的关键挑战。
📚 相关阅读
- 论文原文:arXiv:2605.23904(https://arxiv.org/abs/2605.23904)
- GitHub 代码:microsoft/SkillOpt(https://aka.ms/skillopt)
- Harness Engineering 概念:OpenAI 提出的环境设计范式,强调约束 > 代码
- TextGrad:文本空间梯度优化的先驱工作
逍遥云初 | 2026.05.30
推荐好物
优质精选以上为联盟推广链接,购买后作者可能获得佣金(不影响价格)
逍遥云初 · 2026-05-30
记录 · 思考 · 成长