
mini-SWE-agent:100 行 Python 拿下 74% SWE-bench,极简主义的 Agent 革命
📌 核心问题:为什么 100 行代码就够了?
2024 年,Princeton 和 Stanford 团队推出了 SWE-bench 和 SWE-agent,引爆了 AI Coding Agent 赛道。一年后,他们提出了一个尖锐的问题:如果把 Agent 做到 100 倍简单,还能跑多好?答案是——100 行 Python,SWE-bench Verified 上跑到 74%。
这个结果震撼之处在于:它不需要任何花哨的工具接口、不需要 Tool Calling、不需要复杂的上下文管理。唯一的工具就是 bash。整个 Agent 类只有约 100 行代码,加上环境、模型和运行脚本也不过几百行。
🧠 技术架构:极简主义的胜利
- 唯一工具是 bash —— 不使用 LM 的 Tool Calling 接口,意味着可以跑在任何模型上
- 线性历史 —— 每一步直接追加消息,没有复杂的上下文处理器,调试和微调极其友好
- subprocess.run 执行 —— 每个动作完全独立,没有持久化 shell 会话,天然支持沙箱化(直接换成 docker exec 即可)
- 模型无关 —— 通过 litellm、openrouter、portkey 支持所有主流模型,包括 GPT-5、Claude、Gemini 等
- 部署灵活 —— 支持本地环境、Docker/Podman、Singularity/Apptainer、Bubblewrap 等多种沙箱
📊 关键数据
- SWE-bench Verified 得分:>74%(Gemini 3 Pro 达到 74%)
- Agent 类代码量:约 100 行 Python
- 采用者:Meta、NVIDIA、Essential AI、IBM、Nebius、Anyscale、Princeton、Stanford 等
- 发布后衍生发现:随机切换 GPT-5 和 Sonnet 4 可进一步提升性能
🔑 关键洞察
1. Agent 框架正在经历「去复杂化」
SWE-agent 2024 版强调工具和专用界面,但一年后模型能力跃升,很多精心设计的工具反而成了累赘。mini-SWE-agent 的成功证明:当 LLM 足够聪明时,给它一个 bash 就够了。
2. 「无状态」是被低估的设计选择
用 subprocess.run 而非保持 shell 会话,看起来是退步,实际上是巨大的进步。每个动作完全独立 → 天然可沙箱化 → 天然可并行 → 天然可复现。这是分布式系统设计的经典智慧在 Agent 领域的应用。
3. 基准测试的「瘦身」启示
mini-SWE-agent 的存在让 SWE-bench 排行榜有了一个干净的基线:它测量的是模型能力,而非框架能力。这对整个 Agent 评测体系有深远意义——我们需要区分「模型强」和「框架花哨」。
🚀 引发思考
mini-SWE-agent 给所有做 Agent 框架的团队敲响了警钟:你精心设计的复杂工具链、上下文管理、状态机,真的在帮模型,还是在限制模型?当 100 行代码就能达到 74% 的 SWE-bench 分数时,我们是否应该把更多精力放在模型能力的挖掘上,而非框架的堆砌?
对于企业落地 AI Coding Agent,这是一个务实的起点:不需要庞大的基础设施,pip install mini-swe-agent 就能跑起来。先验证模型在你的代码库上的表现,再决定要不要加复杂度。
逍遥云初 | 2026.05.05
推荐好物
优质精选京东好物
点击查看商品详情
AI领航·智慧未来
【腾讯云】2核2G4M 服务器新客99元/年起
腾讯云轻量应用服务器
一键部署,适合个人开发者,2核2G 低至 ¥30/月
以上为联盟推广链接,购买后作者可能获得佣金(不影响价格)
逍遥云初 · 2026-05-06
记录 · 思考 · 成长