
AGENTS.md 真的有用吗?ETH 重磅研究揭示 Coding Agent 上下文文件的反直觉真相
📌 论文信息
论文:Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?
作者:Thibaud Gloaguen, Niels Mündler 等(ETH Zurich SRI)
提交日期:2026 年 2 月 12 日 | 发表:ICML(机器学习顶会)
链接:https://arxiv.org/abs/2602.11988
代码:https://github.com/eth-sri/agentbench
🔥 核心问题:AGENTS.md 到底有没有用?
在 AI Coding Agent 爆发的 2025-2026 年,为仓库编写 AGENTS.md / CLAUDE.md 等上下文文件已成为行业标配。OpenAI、Anthropic、Google 等厂商纷纷推荐这种做法,GitHub 上已有超过 60,000 个公开仓库包含此类文件。
但一个根本性问题始终没有被严格验证过:这些上下文文件真的能帮助 Coding Agent 更好地完成任务吗?
ETH Zurich SRI 团队首次对这一问题进行了大规模、严格的实证研究,结果出人意料——AGENTS.md 不仅没有显著提升任务成功率,反而可能在拖后腿。
📊 关键数据
基准测试:AGENTbench(138 个实例,12 个仓库)+ SWE-bench Lite
核心发现:
- LLM 生成的 AGENTS.md:任务成功率下降约 3%,推理成本增加超过 20%
- 开发者手写的 AGENTS.md:任务成功率仅提升约 4%(边际改善)
- 无 AGENTS.md(基线):表现反而最稳定
行为分析:
- 有 AGENTS.md 时,Agent 会进行更广泛的代码探索、更多测试、更多文件遍历
- Agent 会严格遵守 AGENTS.md 中的指令——但这些指令往往引入了不必要的约束
- 上下文文件越详细,Agent 越倾向于「过度工程化」,反而偏离了核心任务
🏗️ 技术架构与设计
AGENTbench 构建流程(5 阶段):
- 1. 仓库筛选:从 GitHub 搜索含 AGENTS.md/CLAUDE.md 的 Python 仓库,要求至少 400 个 PR
- 2. PR 过滤:规则检查 + LLM Agent 评估,保留高质量、可测试的 PR
- 3. 环境搭建:用 Coding Agent 自动配置执行环境,确保测试套件可运行
- 4. 任务描述生成:LLM Agent 标准化生成 6 段式任务描述(不含泄露解法)
- 5. 单元测试生成:自动生成回归测试,平均覆盖 75% 的修改代码
三组对照实验:
- ① 无上下文文件(基线)
- ② LLM 自动生成的上下文文件(按厂商推荐方式)
- ③ 开发者手写的上下文文件
🧠 关键洞察
🚀 引发思考
这篇论文对当前 AI Coding Agent 生态提出了一个尖锐的挑战。整个行业都在推 AGENTS.md 作为「最佳实践」,OpenAI 甚至提供了 /init 命令一键生成。但 ETH 的研究告诉我们:我们可能在用错误的方式指导 Agent。
更深层的问题是:当 Agent 越来越强大时,人类提供的上下文文件反而可能成为一种「认知负担」。Agent 需要的不是一份详尽的仓库百科全书,而是几条精准的约束。这与软件工程中的「KISS 原则」(Keep It Simple, Stupid)不谋而合——对 Agent 的指导,也应该遵循极简原则。
对于正在使用或设计 AGENTS.md 的工程师来说,这篇论文值得反复研读。它不是说 AGENTS.md 没用,而是说:写得少,可能比写得多更好。
📎 相关阅读
- SWE-bench: Can AI Resolve Real-World GitHub Issues? — https://arxiv.org/abs/2310.06770
- Codified Context: Infrastructure for AI Agents in a Complex Codebase — https://arxiv.org/abs/2602.20478
- The Harness Engineering Playbook (OpenAI) — 构建有效 Agent 环境的工程实践
逍遥云初 | 2026.05.14
推荐好物
优质精选京东好物
点击查看商品详情
AI领航·智慧未来
【腾讯云】2核2G4M 服务器新客99元/年起
腾讯云轻量应用服务器
一键部署,适合个人开发者,2核2G 低至 ¥30/月
以上为联盟推广链接,购买后作者可能获得佣金(不影响价格)
逍遥云初 · 2026-05-14
记录 · 思考 · 成长