逍遥云初

📌 核心问题：为什么 Claude Code 突然「变笨」了？

2026 年 3 月至 4 月期间，大量用户反馈 Claude Code 的回复质量明显下降——变得健忘、重复、工具选择混乱。Anthropic 工程团队经过一个多月的排查，最终定位到三个独立的代码变更，它们在不同时间、影响不同流量切片，叠加后造成了广泛的「智能退化」假象。

这篇文章的价值在于：它不仅是一份 bug 报告，更是一份关于「AI 产品如何在快速迭代中保持质量」的工程复盘。对于所有构建 AI Agent 产品的团队，这里面的教训都值得深思。

🔍 三个 Bug 的技术细节

Bug 1：推理努力等级被悄悄降级

3 月 4 日，团队将 Claude Code 的默认推理努力等级从 high 改为 medium，原因是部分用户反馈 Opus 4.6 在 high 模式下思考时间过长，导致 UI 卡死。内部评估显示 medium 智能略低但延迟显著降低，于是做了这个「权衡」。

问题在于：大多数用户没有注意到这个变化，也懒得手动切换。直到 4 月 7 日收到大量反馈后才回退。教训：默认值就是产品的灵魂，改变默认值 = 改变所有人的体验。

Bug 2：缓存优化吃掉了推理历史

3 月 26 日，团队部署了一个「效率优化」：当会话闲置超过 1 小时后，清理旧的 thinking 块以减少恢复时的 token 开销。设计意图是只清理一次，但实现上有 bug——它会在后续每一个 turn 都持续清理，导致 Claude 逐渐「忘记」自己为什么做了那些编辑和工具调用。

这个 bug 更隐蔽：因为缓存失效，用户还报告了 usage limit 消耗异常加快。两个不相关的内部实验进一步掩盖了问题，导致排查花了超过一周。

Bug 3：减少冗余的 Prompt 反而伤害了代码质量

4 月 16 日，团队在系统 Prompt 中添加了一条「减少冗余」的指令。与其他 Prompt 变更叠加后，意外损害了编码质量，影响了 Sonnet 4.6、Opus 4.6 和 Opus 4.7。4 月 20 日回退。

这条最值得警惕：Prompt 工程的微小改动，在组合效应下可能产生远超预期的副作用。

📊 关键数据

影响范围：Sonnet 4.6 + Opus 4.6 + Opus 4.7 三个模型
Bug 1 持续时间：3 月 4 日 → 4 月 7 日（34 天）
Bug 2 持续时间：3 月 26 日 → 4 月 10 日（15 天）
Bug 3 持续时间：4 月 16 日 → 4 月 20 日（4 天）
最终修复版本：v2.1.116（4 月 20 日）
补偿措施：4 月 23 日重置所有订阅用户的 usage limits

🏗️ 技术架构与设计要点

推理努力等级（Effort Levels）：通过 /effort 命令在「更聪明」和「更快」之间切换，底层通过 Messages API 的 effort 参数控制 test-time compute
Prompt Caching 机制：Claude Code 大量依赖 prompt caching 降低 API 调用成本，缓存失效后 token 消耗急剧上升
Thinking History 管理：推理历史保留在对话上下文中，让 Claude 理解自己之前为什么做了某些操作，是 Agent 连续性的关键
clear_thinking API Header：用于清理 thinking 块的 API 机制，配合 keep:1 参数控制保留最近 N 条推理
多层质量保障：人工 Code Review + 自动化测试 + 端到端测试 + Dogfooding，但仍漏过边界场景

🔑 关键洞察

🔑

洞察一：默认值是产品最大的杠杆改变推理等级的默认值，等于改变了所有用户的体验基线。Anthropic 的错误在于：用「内部 eval 数据」做决策，但用户感知的是「主观智能水平」。Medium 在 benchmark 上只比 high 略差，但用户体感是「明显变笨」。AI 产品的质量评估不能只靠自动化指标，用户感知是独立的维度。

🔑

洞察二：Agent 的「记忆」是最脆弱的组件 Bug 2 揭示了深层问题：AI Agent 的连续性依赖于上下文中的推理历史。一旦被意外清除，Agent 就会「失忆」——重复已做过的操作、忘记选择理由。构建 Agent 时，上下文管理的质量保障比模型能力本身更容易被忽视，也更容易出问题。

🔑

洞察三：Prompt 变更的组合效应难以预测单独一条「减少冗余」的 Prompt 看起来无害，但与其他 Prompt 变更叠加后，意外损害了编码质量。Prompt 工程不是「写一句话」那么简单——它是需要集成测试的系统级变更。每次 Prompt 修改都应像代码变更一样经过完整回归测试。

🔑

洞察四：三个独立 Bug 的叠加效应远超单个 Bug 每个 Bug 单独来看影响有限，但三个 Bug 在不同时间影响不同流量切片，叠加后造成「整体质量下降」的感知。这种「分布式故障」在复杂 AI 系统中尤其危险——排查时每个单独线索都不足以定位问题。

💭 引发思考

这份复盘最让人印象深刻的是 Anthropic 的透明度。他们不仅公开承认了问题，还详细解释了每个 Bug 的根因、排查过程和修复方案。这在 AI 行业中并不常见——大多数公司会选择静默修复。这种工程文化本身就值得学习。

对于 AI Agent 开发者，核心教训是：Agent 系统的可靠性不仅取决于模型能力，更取决于上下文管理、默认配置、Prompt 组合这三个「胶水层」的质量。任何一个环节的疏忽，都可能让用户觉得「AI 变笨了」。在快速迭代的节奏中，如何建立更 robust 的质量保障机制，是整个行业需要共同面对的挑战。

📚 相关阅读

Lessons from building Claude Code: Prompt caching is everything — Anthropic 博客
Claude Code Changelog — 最新版本 v2.1.149
2026 Agentic Coding Trends Report — Anthropic 行业报告

✦

逍遥云初 | 2026.05.23

Claude Code 质量事故复盘：三个 Bug 如何让 AI 编程助手「变笨」