逍遥云初

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

📄

论文链接：arXiv:2605.23904 作者：Yifan Yang, Ziyang Gong 等（Microsoft Research）提交日期：2026 年 5 月 22 日 GitHub：https://aka.ms/skillopt（⭐ 2.86k） HuggingFace 热榜：#1 Trending（202 upvotes）

✦

📌 核心问题：Agent 技能如何像神经网络权重一样被训练？

当前 AI Agent 的技能（Skill）获取方式主要有三种：人工手写规则、一次性 LLM 生成、或通过松散的自修订机制迭代。但这三种方式有一个共同缺陷——它们都不像深度学习优化器那样对技能本身进行系统性的、可复现的训练。技能的质量高度依赖初始 prompt 的质量，且缺乏稳定的改进保障。

SkillOpt 论文提出了一个关键洞察：Agent 的技能应该被视为「冻结 Agent 的外部状态」，用与权重空间优化相同的纪律来训练。这就好比把 Agent 的 prompt/技能文档当作一个可训练的「参数」，用一个独立的优化器模型来迭代改进它，而不是靠 LLM 的「灵感」随机生成。

这个问题为什么重要？因为随着 Coding Agent（如 Claude Code、Codex）在真实软件工程中的渗透，Agent 的核心竞争力正从「模型能力」转向「环境设计能力」——也就是 Harness Engineering 中强调的「约束比代码更贵」。SkillOpt 提供了一个让这些约束/技能自动进化的系统化方案。

✦

📊 关键数据：全面碾压所有竞品

🏆

在 6 个 benchmark × 7 个目标模型 × 3 种执行环境 = 52 个评估单元中，SkillOpt 全部达到最优或并列最优，击败了所有竞品（人工技能、一次性 LLM、Trace2Skill、TextGrad、GEPA、EvoSkill）。

GPT-5.5 上的性能提升：

Direct Chat 模式：平均准确率提升 +23.5 个百分点
Codex Agent 循环：提升 +24.8 个百分点
Claude Code 环境：提升 +19.1 个百分点

迁移实验表明，优化后的技能文档可以跨模型规模、跨执行环境（Codex ↔ Claude Code）、甚至迁移到相近的数学 benchmark 而无需重新优化，展现出强大的泛化能力。

✦

🏗️ 技术架构与设计

核心思路：将 Agent 技能建模为「文本空间中的可训练状态」，而非固定的 prompt 模板。一个独立的优化器模型对技能文档执行 bounded add/delete/replace 编辑操作。
验证驱动：每次编辑必须在 held-out 验证集上严格提升分数才被接受，类似深度学习中的 validation-based early stopping。
稳定训练机制：引入「文本学习率预算」控制单次编辑幅度、「被拒编辑缓冲区」防止重复尝试、以及 epoch 级别的慢速/元更新保证收敛稳定性。
零推理开销：优化过程完全离线，部署时技能文档作为静态上下文注入，不增加任何额外的模型调用。
广泛兼容：支持 Direct Chat、Codex、Claude Code 三种执行环境，覆盖 7 个主流模型（GPT-5.5 等）。

✦

🔑 关键洞察

1. 技能 ≠ Prompt，技能是可训练的外部状态

🔑

传统观点把 Agent 技能等同于一段 prompt。SkillOpt 证明，技能更像是一个「软参数」——它有独立的训练循环、验证机制和优化目标。这意味着 Agent 的能力提升不必依赖更强的底层模型，而可以通过优化技能文档本身来实现。

2. 文本空间优化器的可行性被验证

🔑

SkillOpt 证明了「用 LLM 优化 LLM 的输入」这条路是可行且有效的。优化器模型通过分析 rollout 轨迹和评分，生成针对性的文本编辑。这与 TextGrad（梯度在文本空间的类比）的思想一脉相承，但 SkillOpt 引入了更严格的验证机制和更稳定的训练流程。

3. 技能的跨环境迁移能力

🔑

优化后的技能不仅能在一个模型/环境中工作，还能迁移到不同的模型规模和执行环境。这对实际部署意义重大——你可以在一个便宜的模型上优化技能，然后部署到更强的模型上使用，大幅降低优化成本。

4. Harness Engineering 的自动化路径

🔑

Harness Engineering 强调「环境设计 > 模型能力」，但好的环境设计需要大量人工经验。SkillOpt 提供了一条自动化路径：让 Agent 的约束规则、代码规范、测试策略等「技能文档」通过数据驱动的方式自动进化，而不是靠工程师手写。这对 Agent 工程化落地是一个重要的基础设施级贡献。

✦

💭 引发思考

SkillOpt 的出现标志着 Agent 工程从「手工作坊」向「自动化训练」的范式转移。当技能可以像模型权重一样被系统性地优化时，Agent 的核心竞争力将不再是「用了什么模型」，而是「拥有什么样的技能训练流程」。这与 Harness Engineering 的核心理念高度一致——约束比代码更贵，而 SkillOpt 让这些约束可以被自动优化。

但也有值得思考的问题：当技能文档被自动优化后，它是否还能被人类理解和调试？如果一个优化后的 AGENTS.md 中包含了人类无法理解的「trick」，这对代码可维护性和团队协作意味着什么？这可能是 SkillOpt 在实际工程落地中需要解决的关键挑战。

✦

📚 相关阅读

论文原文：arXiv:2605.23904（https://arxiv.org/abs/2605.23904）
GitHub 代码：microsoft/SkillOpt（https://aka.ms/skillopt）
Harness Engineering 概念：OpenAI 提出的环境设计范式，强调约束 > 代码
TextGrad：文本空间梯度优化的先驱工作

✦

逍遥云初 | 2026.05.30

SkillOpt：微软研究院的 Agent 技能自进化优化器