逍遥云初

📌 核心事件

2026 年 4 月 23 日，Anthropic 工程团队发布了一篇罕见的高质量事后分析报告，详细解释了过去一个月 Claude Code 质量下降的根本原因。三个独立的变更——分别影响了 Claude Code、Claude Agent SDK 和 Claude Cowork——共同造成了用户感知到的「广泛且不一致的退化」。

这不是模型本身的退化，而是产品层（Harness 层）的工程决策失误。对于关注 AI Coding Agent 和 Harness Engineering 的开发者来说，这篇报告是一份极其珍贵的工程教材。

✦

🔥 三个 Bug 的完整时间线

Bug 1：默认推理等级从 high 降为 medium（3月4日 → 4月7日）

背景：Opus 4.6 在 high effort 模式下偶尔思考时间过长，导致 UI 看起来像卡死。

决策：将默认推理等级从 high 降为 medium，以减少延迟。

后果：用户明显感知到智能水平下降。尽管 Anthropic 做了多次 UI 设计迭代来提示用户可以手动切换，但大多数用户仍然使用 medium 默认值。

修复：4月7日回退。现在 Opus 4.7 默认 xhigh effort，其他模型默认 high。

Bug 2：缓存优化导致推理历史被持续清除（3月26日 → 4月10日）

背景：为减少用户恢复长时间空闲会话的成本，当会话空闲超过1小时后，清除旧的 thinking blocks。

Bug：实现有 bug——不是只清除一次，而是每个 turn 都清除。会话一旦跨越空闲阈值，后续所有请求都只保留最近一个推理块，丢弃所有历史。

后果：Claude 表现得「健忘、重复、工具选择奇怪」。同时因为持续丢弃 thinking blocks 导致缓存未命中，用户反馈用量消耗速度异常加快。

修复：4月10日修复（v2.1.101）。关键发现：Opus 4.7 在提供完整代码仓库上下文时能发现这个 bug，而 Opus 4.6 不能。

Bug 3：System Prompt 长度限制降低编码质量（4月16日 → 4月20日）

背景：Opus 4.7 输出非常冗长。Anthropic 在发布前对 Claude Code 做了优化准备。

变更：在 system prompt 中加入「工具调用间文字 ≤25 词，最终回复 ≤100 词」的限制。

后果：经过数周内部测试后上线，但在更广泛的评估中发现 Opus 4.6 和 4.7 都出现了 3% 的性能下降。

修复：4月20日立即回退。

✦

🧠 关键洞察

💡

为什么三个 Bug 同时被发现？因为每个变更影响的流量切片和时间表不同，聚合效应看起来像「广泛且不一致的退化」。最初的报告在3月初就开始了，但与正常用户反馈波动难以区分。

🔑

Harness 层的失误比模型退化更隐蔽：API 和推理层未受影响，问题全在产品层。这说明 Harness Engineering 的复杂性远超想象——即使是 Anthropic 自己也会犯错。

🔑

Opus 4.7 的代码审查能力提升：在调查过程中，Anthropic 用 Opus 4.7 对有问题的 PR 做代码审查，在提供完整仓库上下文时成功发现了缓存 bug，而 Opus 4.6 没有。这验证了 Harness + 上下文管理对 Agent 能力的重要性。

✦

🚀 后续改进措施

确保更多内部员工使用 Claude Code 的公开版本（而非测试版）
改进内部 Code Review 工具，并将改进版本发布给客户
对 system prompt 变更增加更严格的控制：每次变更都要运行广泛的 per-model 评估集
对可能影响智能水平的变更增加 soak period、更广泛的评估集和渐进式发布
为所有订阅者重置使用额度

✦

💡 引发思考

这篇事后分析的透明度在 AI 行业极为罕见。大多数公司会选择静默修复，而不是公开承认三个独立的工程失误。Anthropic 的做法值得整个行业学习。

更值得关注的是：即使是模型提供商自己的工程团队，在 Harness 层也会犯「改了默认值导致感知退化」「缓存优化引入无限循环 bug」「prompt 限制影响编码质量」这类经典工程问题。这再次印证了 Harness Engineering 的核心观点——Agent 的能力不仅取决于模型本身，更取决于围绕模型的工程设计。

对于使用 Claude Code 的开发者，建议：显式设置 /effort 为 high 或 xhigh，不要依赖默认值；定期检查会话是否出现「健忘」或「重复」行为。

✦

逍遥云初 | 2026.04.29

Anthropic Claude Code 质量事故事后分析：三个 Bug 如何摧毁用户信任与修复之路

📌 核心事件

🔥 三个 Bug 的完整时间线

Bug 1：默认推理等级从 high 降为 medium（3月4日 → 4月7日）

Bug 2：缓存优化导致推理历史被持续清除（3月26日 → 4月10日）

Bug 3：System Prompt 长度限制降低编码质量（4月16日 → 4月20日）

🧠 关键洞察

🚀 后续改进措施

💡 引发思考

推荐好物

京东好物

AI领航·智慧未来

腾讯云轻量应用服务器