← 返回首页
7 分钟阅读
Anthropic Claude Code 质量事故事后分析:三个 Bug 如何摧毁用户信任与修复之路
Coding Agent2026-05-06

Anthropic Claude Code 质量事故事后分析:三个 Bug 如何摧毁用户信任与修复之路

📌 核心事件

2026 年 4 月 23 日,Anthropic 工程团队发布了一篇罕见的高质量事后分析报告,详细解释了过去一个月 Claude Code 质量下降的根本原因。三个独立的变更——分别影响了 Claude Code、Claude Agent SDK 和 Claude Cowork——共同造成了用户感知到的「广泛且不一致的退化」。

这不是模型本身的退化,而是产品层(Harness 层)的工程决策失误。对于关注 AI Coding Agent 和 Harness Engineering 的开发者来说,这篇报告是一份极其珍贵的工程教材。

🔥 三个 Bug 的完整时间线

Bug 1:默认推理等级从 high 降为 medium(3月4日 → 4月7日)

背景:Opus 4.6 在 high effort 模式下偶尔思考时间过长,导致 UI 看起来像卡死。

决策:将默认推理等级从 high 降为 medium,以减少延迟。

后果:用户明显感知到智能水平下降。尽管 Anthropic 做了多次 UI 设计迭代来提示用户可以手动切换,但大多数用户仍然使用 medium 默认值。

修复:4月7日回退。现在 Opus 4.7 默认 xhigh effort,其他模型默认 high。

Bug 2:缓存优化导致推理历史被持续清除(3月26日 → 4月10日)

背景:为减少用户恢复长时间空闲会话的成本,当会话空闲超过1小时后,清除旧的 thinking blocks。

Bug:实现有 bug——不是只清除一次,而是每个 turn 都清除。会话一旦跨越空闲阈值,后续所有请求都只保留最近一个推理块,丢弃所有历史。

后果:Claude 表现得「健忘、重复、工具选择奇怪」。同时因为持续丢弃 thinking blocks 导致缓存未命中,用户反馈用量消耗速度异常加快。

修复:4月10日修复(v2.1.101)。关键发现:Opus 4.7 在提供完整代码仓库上下文时能发现这个 bug,而 Opus 4.6 不能。

Bug 3:System Prompt 长度限制降低编码质量(4月16日 → 4月20日)

背景:Opus 4.7 输出非常冗长。Anthropic 在发布前对 Claude Code 做了优化准备。

变更:在 system prompt 中加入「工具调用间文字 ≤25 词,最终回复 ≤100 词」的限制。

后果:经过数周内部测试后上线,但在更广泛的评估中发现 Opus 4.6 和 4.7 都出现了 3% 的性能下降。

修复:4月20日立即回退。

🧠 关键洞察

💡
为什么三个 Bug 同时被发现?因为每个变更影响的流量切片和时间表不同,聚合效应看起来像「广泛且不一致的退化」。最初的报告在3月初就开始了,但与正常用户反馈波动难以区分。
🔑
Harness 层的失误比模型退化更隐蔽:API 和推理层未受影响,问题全在产品层。这说明 Harness Engineering 的复杂性远超想象——即使是 Anthropic 自己也会犯错。
🔑
Opus 4.7 的代码审查能力提升:在调查过程中,Anthropic 用 Opus 4.7 对有问题的 PR 做代码审查,在提供完整仓库上下文时成功发现了缓存 bug,而 Opus 4.6 没有。这验证了 Harness + 上下文管理对 Agent 能力的重要性。

🚀 后续改进措施

  • 确保更多内部员工使用 Claude Code 的公开版本(而非测试版)
  • 改进内部 Code Review 工具,并将改进版本发布给客户
  • 对 system prompt 变更增加更严格的控制:每次变更都要运行广泛的 per-model 评估集
  • 对可能影响智能水平的变更增加 soak period、更广泛的评估集和渐进式发布
  • 为所有订阅者重置使用额度

💡 引发思考

这篇事后分析的透明度在 AI 行业极为罕见。大多数公司会选择静默修复,而不是公开承认三个独立的工程失误。Anthropic 的做法值得整个行业学习。

更值得关注的是:即使是模型提供商自己的工程团队,在 Harness 层也会犯「改了默认值导致感知退化」「缓存优化引入无限循环 bug」「prompt 限制影响编码质量」这类经典工程问题。这再次印证了 Harness Engineering 的核心观点——Agent 的能力不仅取决于模型本身,更取决于围绕模型的工程设计。

对于使用 Claude Code 的开发者,建议:显式设置 /effort 为 high 或 xhigh,不要依赖默认值;定期检查会话是否出现「健忘」或「重复」行为。

逍遥云初 | 2026.04.29

逍遥云初 · 2026-05-06

记录 · 思考 · 成长