逍遥云初

📌 论文信息

论文：Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?

作者：Thibaud Gloaguen, Niels Mündler 等（ETH Zurich SRI）

提交日期：2026 年 2 月 12 日 | 发表：ICML（机器学习顶会）

链接：https://arxiv.org/abs/2602.11988

代码：https://github.com/eth-sri/agentbench

✦

🔥 核心问题：AGENTS.md 到底有没有用？

在 AI Coding Agent 爆发的 2025-2026 年，为仓库编写 AGENTS.md / CLAUDE.md 等上下文文件已成为行业标配。OpenAI、Anthropic、Google 等厂商纷纷推荐这种做法，GitHub 上已有超过 60,000 个公开仓库包含此类文件。

但一个根本性问题始终没有被严格验证过：这些上下文文件真的能帮助 Coding Agent 更好地完成任务吗？

ETH Zurich SRI 团队首次对这一问题进行了大规模、严格的实证研究，结果出人意料——AGENTS.md 不仅没有显著提升任务成功率，反而可能在拖后腿。

✦

📊 关键数据

基准测试：AGENTbench（138 个实例，12 个仓库）+ SWE-bench Lite

核心发现：

LLM 生成的 AGENTS.md：任务成功率下降约 3%，推理成本增加超过 20%
开发者手写的 AGENTS.md：任务成功率仅提升约 4%（边际改善）
无 AGENTS.md（基线）：表现反而最稳定

行为分析：

有 AGENTS.md 时，Agent 会进行更广泛的代码探索、更多测试、更多文件遍历
Agent 会严格遵守 AGENTS.md 中的指令——但这些指令往往引入了不必要的约束
上下文文件越详细，Agent 越倾向于「过度工程化」，反而偏离了核心任务

✦

🏗️ 技术架构与设计

AGENTbench 构建流程（5 阶段）：

1. 仓库筛选：从 GitHub 搜索含 AGENTS.md/CLAUDE.md 的 Python 仓库，要求至少 400 个 PR
2. PR 过滤：规则检查 + LLM Agent 评估，保留高质量、可测试的 PR
3. 环境搭建：用 Coding Agent 自动配置执行环境，确保测试套件可运行
4. 任务描述生成：LLM Agent 标准化生成 6 段式任务描述（不含泄露解法）
5. 单元测试生成：自动生成回归测试，平均覆盖 75% 的修改代码

三组对照实验：

① 无上下文文件（基线）
② LLM 自动生成的上下文文件（按厂商推荐方式）
③ 开发者手写的上下文文件

✦

🧠 关键洞察

🔑

AGENTS.md 的核心矛盾：它鼓励 Agent 更深入地探索代码库，但这种「过度探索」反而增加了任务难度。Agent 会因为上下文文件中的额外约束而分心，偏离核心修复目标。

🔑

「越多越好」的陷阱：开发者倾向于在 AGENTS.md 中写入尽可能多的信息（架构说明、风格指南、工具链配置等），但研究表明，不必要的要求是任务成功率下降的主要原因。

🔑

成本与收益的失衡：即使开发者手写的 AGENTS.md 能带来 4% 的成功率提升，但推理成本增加 20% 以上，这个 trade-off 在规模化使用中是不可忽视的。

🔑

建议：只写最小必要约束。AGENTS.md 应该只包含「这个仓库用什么工具链」「怎么跑测试」这类硬性要求，而不是架构理念、设计哲学等软性指导。

✦

🚀 引发思考

这篇论文对当前 AI Coding Agent 生态提出了一个尖锐的挑战。整个行业都在推 AGENTS.md 作为「最佳实践」，OpenAI 甚至提供了 /init 命令一键生成。但 ETH 的研究告诉我们：我们可能在用错误的方式指导 Agent。

更深层的问题是：当 Agent 越来越强大时，人类提供的上下文文件反而可能成为一种「认知负担」。Agent 需要的不是一份详尽的仓库百科全书，而是几条精准的约束。这与软件工程中的「KISS 原则」（Keep It Simple, Stupid）不谋而合——对 Agent 的指导，也应该遵循极简原则。

对于正在使用或设计 AGENTS.md 的工程师来说，这篇论文值得反复研读。它不是说 AGENTS.md 没用，而是说：写得少，可能比写得多更好。

✦

📎 相关阅读

SWE-bench: Can AI Resolve Real-World GitHub Issues? — https://arxiv.org/abs/2310.06770
Codified Context: Infrastructure for AI Agents in a Complex Codebase — https://arxiv.org/abs/2602.20478
The Harness Engineering Playbook (OpenAI) — 构建有效 Agent 环境的工程实践

✦

逍遥云初 | 2026.05.14

AGENTS.md 真的有用吗？ETH 重磅研究揭示 Coding Agent 上下文文件的反直觉真相

📌 论文信息

🔥 核心问题：AGENTS.md 到底有没有用？

📊 关键数据

🏗️ 技术架构与设计

🧠 关键洞察

🚀 引发思考

📎 相关阅读

推荐好物

京东好物

AI领航·智慧未来

腾讯云轻量应用服务器