← 返回首页
8 分钟阅读
AGENTS.md 真的有用吗?ETH 重磅研究揭示 Coding Agent 上下文文件的反直觉真相
Coding Agent2026-05-14

AGENTS.md 真的有用吗?ETH 重磅研究揭示 Coding Agent 上下文文件的反直觉真相

📌 论文信息

论文:Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?

作者:Thibaud Gloaguen, Niels Mündler 等(ETH Zurich SRI)

提交日期:2026 年 2 月 12 日 | 发表:ICML(机器学习顶会)

链接:https://arxiv.org/abs/2602.11988

代码:https://github.com/eth-sri/agentbench

🔥 核心问题:AGENTS.md 到底有没有用?

在 AI Coding Agent 爆发的 2025-2026 年,为仓库编写 AGENTS.md / CLAUDE.md 等上下文文件已成为行业标配。OpenAI、Anthropic、Google 等厂商纷纷推荐这种做法,GitHub 上已有超过 60,000 个公开仓库包含此类文件。

但一个根本性问题始终没有被严格验证过:这些上下文文件真的能帮助 Coding Agent 更好地完成任务吗?

ETH Zurich SRI 团队首次对这一问题进行了大规模、严格的实证研究,结果出人意料——AGENTS.md 不仅没有显著提升任务成功率,反而可能在拖后腿。

📊 关键数据

基准测试:AGENTbench(138 个实例,12 个仓库)+ SWE-bench Lite

核心发现:

  • LLM 生成的 AGENTS.md:任务成功率下降约 3%,推理成本增加超过 20%
  • 开发者手写的 AGENTS.md:任务成功率仅提升约 4%(边际改善)
  • 无 AGENTS.md(基线):表现反而最稳定

行为分析:

  • 有 AGENTS.md 时,Agent 会进行更广泛的代码探索、更多测试、更多文件遍历
  • Agent 会严格遵守 AGENTS.md 中的指令——但这些指令往往引入了不必要的约束
  • 上下文文件越详细,Agent 越倾向于「过度工程化」,反而偏离了核心任务

🏗️ 技术架构与设计

AGENTbench 构建流程(5 阶段):

  • 1. 仓库筛选:从 GitHub 搜索含 AGENTS.md/CLAUDE.md 的 Python 仓库,要求至少 400 个 PR
  • 2. PR 过滤:规则检查 + LLM Agent 评估,保留高质量、可测试的 PR
  • 3. 环境搭建:用 Coding Agent 自动配置执行环境,确保测试套件可运行
  • 4. 任务描述生成:LLM Agent 标准化生成 6 段式任务描述(不含泄露解法)
  • 5. 单元测试生成:自动生成回归测试,平均覆盖 75% 的修改代码

三组对照实验:

  • ① 无上下文文件(基线)
  • ② LLM 自动生成的上下文文件(按厂商推荐方式)
  • ③ 开发者手写的上下文文件

🧠 关键洞察

🔑
AGENTS.md 的核心矛盾:它鼓励 Agent 更深入地探索代码库,但这种「过度探索」反而增加了任务难度。Agent 会因为上下文文件中的额外约束而分心,偏离核心修复目标。
🔑
「越多越好」的陷阱:开发者倾向于在 AGENTS.md 中写入尽可能多的信息(架构说明、风格指南、工具链配置等),但研究表明,不必要的要求是任务成功率下降的主要原因。
🔑
成本与收益的失衡:即使开发者手写的 AGENTS.md 能带来 4% 的成功率提升,但推理成本增加 20% 以上,这个 trade-off 在规模化使用中是不可忽视的。
🔑
建议:只写最小必要约束。AGENTS.md 应该只包含「这个仓库用什么工具链」「怎么跑测试」这类硬性要求,而不是架构理念、设计哲学等软性指导。

🚀 引发思考

这篇论文对当前 AI Coding Agent 生态提出了一个尖锐的挑战。整个行业都在推 AGENTS.md 作为「最佳实践」,OpenAI 甚至提供了 /init 命令一键生成。但 ETH 的研究告诉我们:我们可能在用错误的方式指导 Agent。

更深层的问题是:当 Agent 越来越强大时,人类提供的上下文文件反而可能成为一种「认知负担」。Agent 需要的不是一份详尽的仓库百科全书,而是几条精准的约束。这与软件工程中的「KISS 原则」(Keep It Simple, Stupid)不谋而合——对 Agent 的指导,也应该遵循极简原则。

对于正在使用或设计 AGENTS.md 的工程师来说,这篇论文值得反复研读。它不是说 AGENTS.md 没用,而是说:写得少,可能比写得多更好。

📎 相关阅读

  • SWE-bench: Can AI Resolve Real-World GitHub Issues? — https://arxiv.org/abs/2310.06770
  • Codified Context: Infrastructure for AI Agents in a Complex Codebase — https://arxiv.org/abs/2602.20478
  • The Harness Engineering Playbook (OpenAI) — 构建有效 Agent 环境的工程实践

逍遥云初 | 2026.05.14

逍遥云初 · 2026-05-14

记录 · 思考 · 成长