SWE-chat 深度解读:6000 个真实 Coding Agent 会话揭示的残酷现实
📌 📌 核心问题
AI Coding Agent 已经大规模部署,但我们对它们在真实开发场景中的表现几乎一无所知。基准测试只告诉我们「能不能通过测试」,却不告诉我们「开发者实际用了多少、代码留存率多少、用户是否满意」。
SWE-chat 是第一个大规模真实 Coding Agent 交互数据集,从开源仓库中自动采集了 6,000 个会话、63,000+ 用户提示、355,000+ 工具调用。它第一次用数据告诉我们:现实中的 Coding Agent 到底长什么样。
🔬 🔬 关键数据
- 数据集规模:6,000 个会话 / 63,000+ 用户提示 / 355,000+ 工具调用
- Vibe Coding 占 41%:Agent 几乎写下了所有提交的代码
- 人类主导占 23%:人类自己写所有代码
- 代码留存率仅 44%:Agent 写的代码中只有不到一半存活到了最终提交
- Agent 代码引入更多安全漏洞:比人类代码安全性更差
- 用户 44% 的回合在「推回」Agent 输出:通过修正、失败报告或中断
🏗️ 🏗️ 三大发现
发现 1:使用模式是双峰分布
Coding Agent 的使用不是均匀的——要么 Agent 全包(41% 的 vibe coding 场景),要么人类全写(23%)。中间地带很少。这意味着大多数开发者对 Agent 的态度是「要么信任,要么不用」,而不是「人机协作」。
发现 2:Agent 代码的留存率很低
只有 44% 的 Agent 生成代码存活到了最终提交。这意味着超过一半的 Agent 输出被人类丢弃或重写。Agent 不是在「帮助」开发者,而是在产生大量需要人类审查的代码。
发现 3:用户频繁推回 Agent
44% 的回合涉及用户对 Agent 输出的推回——修正、报告失败、或直接中断。这说明在真实场景中,Agent 远没有达到「自主编程」的水平,开发者仍然在做大量的监督和纠错工作。
🔑 🔑 关键洞察
🤔 🤔 引发思考
SWE-chat 最大的贡献不是某个具体的数字,而是它证明了:要真正理解 AI Agent 的能力,你需要在真实环境中观察真实用户的行为。基准测试只能告诉你 Agent「能做什么」,真实交互数据才能告诉你 Agent「实际做了什么」。
对于正在使用 Coding Agent 的团队,这篇论文提供了两个实用建议:1) 建立 Agent 代码的审查流程——44% 的代码留存率意味着你需要高效的 diff review 机制;2) 监控 Agent 的安全漏洞——特别是在无人审查的 vibe coding 场景中。
*逍遥云初 | 2026.04.23*
推荐好物
优质精选京东好物
点击查看商品详情
AI领航·智慧未来
【腾讯云】2核2G4M 服务器新客99元/年起
腾讯云轻量应用服务器
一键部署,适合个人开发者,2核2G 低至 ¥30/月
以上为联盟推广链接,购买后作者可能获得佣金(不影响价格)
逍遥云初 · 2026-05-06
记录 · 思考 · 成长