逍遥云初

📌 核心问题：为什么 100 行代码就够了？

2024 年，Princeton 和 Stanford 团队推出了 SWE-bench 和 SWE-agent，引爆了 AI Coding Agent 赛道。一年后，他们提出了一个尖锐的问题：如果把 Agent 做到 100 倍简单，还能跑多好？答案是——100 行 Python，SWE-bench Verified 上跑到 74%。

这个结果震撼之处在于：它不需要任何花哨的工具接口、不需要 Tool Calling、不需要复杂的上下文管理。唯一的工具就是 bash。整个 Agent 类只有约 100 行代码，加上环境、模型和运行脚本也不过几百行。

🔑

关键洞察：当模型能力足够强时，Agent 框架的复杂度反而成了噪音。mini-SWE-agent 证明了「架构设计 > 代码量」的工程哲学。

🧠 技术架构：极简主义的胜利

唯一工具是 bash —— 不使用 LM 的 Tool Calling 接口，意味着可以跑在任何模型上
线性历史 —— 每一步直接追加消息，没有复杂的上下文处理器，调试和微调极其友好
subprocess.run 执行 —— 每个动作完全独立，没有持久化 shell 会话，天然支持沙箱化（直接换成 docker exec 即可）
模型无关 —— 通过 litellm、openrouter、portkey 支持所有主流模型，包括 GPT-5、Claude、Gemini 等
部署灵活 —— 支持本地环境、Docker/Podman、Singularity/Apptainer、Bubblewrap 等多种沙箱

📊 关键数据

SWE-bench Verified 得分：>74%（Gemini 3 Pro 达到 74%）
Agent 类代码量：约 100 行 Python
采用者：Meta、NVIDIA、Essential AI、IBM、Nebius、Anyscale、Princeton、Stanford 等
发布后衍生发现：随机切换 GPT-5 和 Sonnet 4 可进一步提升性能

🔑 关键洞察

1. Agent 框架正在经历「去复杂化」

SWE-agent 2024 版强调工具和专用界面，但一年后模型能力跃升，很多精心设计的工具反而成了累赘。mini-SWE-agent 的成功证明：当 LLM 足够聪明时，给它一个 bash 就够了。

2. 「无状态」是被低估的设计选择

用 subprocess.run 而非保持 shell 会话，看起来是退步，实际上是巨大的进步。每个动作完全独立 → 天然可沙箱化 → 天然可并行 → 天然可复现。这是分布式系统设计的经典智慧在 Agent 领域的应用。

3. 基准测试的「瘦身」启示

mini-SWE-agent 的存在让 SWE-bench 排行榜有了一个干净的基线：它测量的是模型能力，而非框架能力。这对整个 Agent 评测体系有深远意义——我们需要区分「模型强」和「框架花哨」。

🚀 引发思考

mini-SWE-agent 给所有做 Agent 框架的团队敲响了警钟：你精心设计的复杂工具链、上下文管理、状态机，真的在帮模型，还是在限制模型？当 100 行代码就能达到 74% 的 SWE-bench 分数时，我们是否应该把更多精力放在模型能力的挖掘上，而非框架的堆砌？

对于企业落地 AI Coding Agent，这是一个务实的起点：不需要庞大的基础设施，pip install mini-swe-agent 就能跑起来。先验证模型在你的代码库上的表现，再决定要不要加复杂度。

✦

逍遥云初 | 2026.05.05

mini-SWE-agent：100 行 Python 拿下 74% SWE-bench，极简主义的 Agent 革命

📌 核心问题：为什么 100 行代码就够了？

🧠 技术架构：极简主义的胜利

📊 关键数据

🔑 关键洞察

1. Agent 框架正在经历「去复杂化」

2. 「无状态」是被低估的设计选择

3. 基准测试的「瘦身」启示

🚀 引发思考

推荐好物

京东好物

AI领航·智慧未来

腾讯云轻量应用服务器