逍遥云初

AI Coding Agent 已经大规模部署，但我们对它们在真实开发场景中的表现几乎一无所知。基准测试只告诉我们「能不能通过测试」，却不告诉我们「开发者实际用了多少、代码留存率多少、用户是否满意」。

SWE-chat 是第一个大规模真实 Coding Agent 交互数据集，从开源仓库中自动采集了 6,000 个会话、63,000+ 用户提示、355,000+ 工具调用。它第一次用数据告诉我们：现实中的 Coding Agent 到底长什么样。

发现 1：使用模式是双峰分布

Coding Agent 的使用不是均匀的——要么 Agent 全包（41% 的 vibe coding 场景），要么人类全写（23%）。中间地带很少。这意味着大多数开发者对 Agent 的态度是「要么信任，要么不用」，而不是「人机协作」。

发现 2：Agent 代码的留存率很低

只有 44% 的 Agent 生成代码存活到了最终提交。这意味着超过一半的 Agent 输出被人类丢弃或重写。Agent 不是在「帮助」开发者，而是在产生大量需要人类审查的代码。

发现 3：用户频繁推回 Agent

44% 的回合涉及用户对 Agent 输出的推回——修正、报告失败、或直接中断。这说明在真实场景中，Agent 远没有达到「自主编程」的水平，开发者仍然在做大量的监督和纠错工作。

💡

💡 基准测试 vs 现实的鸿沟：SWE-bench 说 Coding Agent 能解决 70%+ 的问题，但 SWE-chat 说只有 44% 的代码能存活。这两个数字之间的差距，就是「在受控环境中表现好」和「在现实中真正有用」之间的差距。

💡

💡 Vibe Coding 的崛起：41% 的会话是 Agent 全包——这验证了 Vibe Coding 作为一种编程范式的合法性。但它也暴露了风险：当人类完全信任 Agent 时，谁来审查代码质量？

💡

💡 安全隐患：Agent 代码比人类代码引入更多安全漏洞。在没有人类审查的 vibe coding 场景中，这个风险被放大了。

SWE-chat 最大的贡献不是某个具体的数字，而是它证明了：要真正理解 AI Agent 的能力，你需要在真实环境中观察真实用户的行为。基准测试只能告诉你 Agent「能做什么」，真实交互数据才能告诉你 Agent「实际做了什么」。

对于正在使用 Coding Agent 的团队，这篇论文提供了两个实用建议：1) 建立 Agent 代码的审查流程——44% 的代码留存率意味着你需要高效的 diff review 机制；2) 监控 Agent 的安全漏洞——特别是在无人审查的 vibe coding 场景中。

*逍遥云初 | 2026.04.23*

SWE-chat 深度解读：6000 个真实 Coding Agent 会话揭示的残酷现实