← 返回首页
6 分钟阅读
mini-SWE-agent:100 行 Python 拿下 74% SWE-bench,极简主义的 Agent 革命
Coding Agent2026-05-06

mini-SWE-agent:100 行 Python 拿下 74% SWE-bench,极简主义的 Agent 革命

📌 核心问题:为什么 100 行代码就够了?

2024 年,Princeton 和 Stanford 团队推出了 SWE-bench 和 SWE-agent,引爆了 AI Coding Agent 赛道。一年后,他们提出了一个尖锐的问题:如果把 Agent 做到 100 倍简单,还能跑多好?答案是——100 行 Python,SWE-bench Verified 上跑到 74%。

这个结果震撼之处在于:它不需要任何花哨的工具接口、不需要 Tool Calling、不需要复杂的上下文管理。唯一的工具就是 bash。整个 Agent 类只有约 100 行代码,加上环境、模型和运行脚本也不过几百行。

🔑
关键洞察:当模型能力足够强时,Agent 框架的复杂度反而成了噪音。mini-SWE-agent 证明了「架构设计 > 代码量」的工程哲学。

🧠 技术架构:极简主义的胜利

  • 唯一工具是 bash —— 不使用 LM 的 Tool Calling 接口,意味着可以跑在任何模型上
  • 线性历史 —— 每一步直接追加消息,没有复杂的上下文处理器,调试和微调极其友好
  • subprocess.run 执行 —— 每个动作完全独立,没有持久化 shell 会话,天然支持沙箱化(直接换成 docker exec 即可)
  • 模型无关 —— 通过 litellm、openrouter、portkey 支持所有主流模型,包括 GPT-5、Claude、Gemini 等
  • 部署灵活 —— 支持本地环境、Docker/Podman、Singularity/Apptainer、Bubblewrap 等多种沙箱

📊 关键数据

  • SWE-bench Verified 得分:>74%(Gemini 3 Pro 达到 74%)
  • Agent 类代码量:约 100 行 Python
  • 采用者:Meta、NVIDIA、Essential AI、IBM、Nebius、Anyscale、Princeton、Stanford 等
  • 发布后衍生发现:随机切换 GPT-5 和 Sonnet 4 可进一步提升性能

🔑 关键洞察

1. Agent 框架正在经历「去复杂化」

SWE-agent 2024 版强调工具和专用界面,但一年后模型能力跃升,很多精心设计的工具反而成了累赘。mini-SWE-agent 的成功证明:当 LLM 足够聪明时,给它一个 bash 就够了。

2. 「无状态」是被低估的设计选择

用 subprocess.run 而非保持 shell 会话,看起来是退步,实际上是巨大的进步。每个动作完全独立 → 天然可沙箱化 → 天然可并行 → 天然可复现。这是分布式系统设计的经典智慧在 Agent 领域的应用。

3. 基准测试的「瘦身」启示

mini-SWE-agent 的存在让 SWE-bench 排行榜有了一个干净的基线:它测量的是模型能力,而非框架能力。这对整个 Agent 评测体系有深远意义——我们需要区分「模型强」和「框架花哨」。

🚀 引发思考

mini-SWE-agent 给所有做 Agent 框架的团队敲响了警钟:你精心设计的复杂工具链、上下文管理、状态机,真的在帮模型,还是在限制模型?当 100 行代码就能达到 74% 的 SWE-bench 分数时,我们是否应该把更多精力放在模型能力的挖掘上,而非框架的堆砌?

对于企业落地 AI Coding Agent,这是一个务实的起点:不需要庞大的基础设施,pip install mini-swe-agent 就能跑起来。先验证模型在你的代码库上的表现,再决定要不要加复杂度。

逍遥云初 | 2026.05.05

逍遥云初 · 2026-05-06

记录 · 思考 · 成长