← 返回首页
5 分钟阅读
Coding Agent2026-05-06

SWE-chat 深度解读:6000 个真实 Coding Agent 会话揭示的残酷现实

📌 📌 核心问题

AI Coding Agent 已经大规模部署,但我们对它们在真实开发场景中的表现几乎一无所知。基准测试只告诉我们「能不能通过测试」,却不告诉我们「开发者实际用了多少、代码留存率多少、用户是否满意」。

SWE-chat 是第一个大规模真实 Coding Agent 交互数据集,从开源仓库中自动采集了 6,000 个会话、63,000+ 用户提示、355,000+ 工具调用。它第一次用数据告诉我们:现实中的 Coding Agent 到底长什么样。

🔬 🔬 关键数据

  • 数据集规模:6,000 个会话 / 63,000+ 用户提示 / 355,000+ 工具调用
  • Vibe Coding 占 41%:Agent 几乎写下了所有提交的代码
  • 人类主导占 23%:人类自己写所有代码
  • 代码留存率仅 44%:Agent 写的代码中只有不到一半存活到了最终提交
  • Agent 代码引入更多安全漏洞:比人类代码安全性更差
  • 用户 44% 的回合在「推回」Agent 输出:通过修正、失败报告或中断

🏗️ 🏗️ 三大发现

发现 1:使用模式是双峰分布

Coding Agent 的使用不是均匀的——要么 Agent 全包(41% 的 vibe coding 场景),要么人类全写(23%)。中间地带很少。这意味着大多数开发者对 Agent 的态度是「要么信任,要么不用」,而不是「人机协作」。

发现 2:Agent 代码的留存率很低

只有 44% 的 Agent 生成代码存活到了最终提交。这意味着超过一半的 Agent 输出被人类丢弃或重写。Agent 不是在「帮助」开发者,而是在产生大量需要人类审查的代码。

发现 3:用户频繁推回 Agent

44% 的回合涉及用户对 Agent 输出的推回——修正、报告失败、或直接中断。这说明在真实场景中,Agent 远没有达到「自主编程」的水平,开发者仍然在做大量的监督和纠错工作。

🔑 🔑 关键洞察

💡
💡 基准测试 vs 现实的鸿沟:SWE-bench 说 Coding Agent 能解决 70%+ 的问题,但 SWE-chat 说只有 44% 的代码能存活。这两个数字之间的差距,就是「在受控环境中表现好」和「在现实中真正有用」之间的差距。
💡
💡 Vibe Coding 的崛起:41% 的会话是 Agent 全包——这验证了 Vibe Coding 作为一种编程范式的合法性。但它也暴露了风险:当人类完全信任 Agent 时,谁来审查代码质量?
💡
💡 安全隐患:Agent 代码比人类代码引入更多安全漏洞。在没有人类审查的 vibe coding 场景中,这个风险被放大了。

🤔 🤔 引发思考

SWE-chat 最大的贡献不是某个具体的数字,而是它证明了:要真正理解 AI Agent 的能力,你需要在真实环境中观察真实用户的行为。基准测试只能告诉你 Agent「能做什么」,真实交互数据才能告诉你 Agent「实际做了什么」。

对于正在使用 Coding Agent 的团队,这篇论文提供了两个实用建议:1) 建立 Agent 代码的审查流程——44% 的代码留存率意味着你需要高效的 diff review 机制;2) 监控 Agent 的安全漏洞——特别是在无人审查的 vibe coding 场景中。

*逍遥云初 | 2026.04.23*

逍遥云初 · 2026-05-06

记录 · 思考 · 成长