逍遥云初

Agentic Coding Needs Proactivity, Not Just Autonomy

📄 论文链接：https://arxiv.org/abs/2605.06717

🏛️ 来源：Google Research（Nghi D. Q. Bui 等）

📅 提交日期：2026 年 5 月 7 日 | 类型：Position Paper

✦

📌 核心问题：从「能做事」到「该不该做事」

2025-2026 年，AI Coding Agent 经历了从「代码补全」到「自主编辑仓库、开 PR、响应 Issue」的飞跃。Claude Code、OpenAI Codex、Gemini CLI、Jules、Cursor 等工具已经证明了 Agent 的自主执行力。但这篇来自 Google Research 的 Position Paper 提出了一个更本质的问题：Agent 不仅要能做事，更要学会判断什么时候不该做事。

当前行业把「自主性」（Autonomy）和「主动性」（Proactivity）混为一谈。自主性 = Agent 能在无人监督下执行任务；主动性 = Agent 能在没有明确指令的情况下，自行决定是否、何时、以何种方式介入。一个能自主完成 100 个任务的 Agent，如果不知道哪些任务不该被打断，它的价值可能为负。

论文的核心洞察：不恰当的通知可能是净负收益（net negative）。开发者被打断后，代码理解的恢复时间从 10-15 分钟（bug 修复）到 30-60 分钟（架构和安全任务）不等。一项跨 4,910 个任务、17 名开发者的纵向研究甚至发现，自我中断比外部中断更具破坏性。

✦

📊 关键数据与基准

456,000 个 PR 分析：Li et al. (2025) 分析了 Codex、Devin、Copilot、Cursor、Claude Code 在 61,000 个仓库、47,000 名开发者中产生的 456,000 个 PR，发现 Agent 提交速度更快，但接受率低于人工 PR
ProactiveBench：6,790 个人工标注事件，用于评估 Agent 的任务预测能力
ProAgentBench：28,000 个事件，来自 500 小时的 Microsoft 365 会话
PARE Bench：143 个任务，前沿模型最高仅达 42% 通过率
状态感知 IDE 助手：65 名参与者研究中，状态感知版本 90% 偏好率 vs 持久化版本 47%
反馈延迟策略：将代码建议接受率从 4.9% 提升到 18.6%，减少 75% 浪费推理调用

✦

🏗️ 技术架构：三级主动性分类法

论文提出了基于决策论的三级分类法，源自 Horvitz (1999) 的混合主动交互理论：

Level 1 — Reactive（反应式）：Agent 仅在开发者发出指令后运行，无持久环境感知。当前大多数 Coding Agent 属于此级别。
Level 2 — Scheduled（调度式）：基于预定义调度或事件触发运行（如 Cursor Automations、Claude Code Routines）。可过滤排序，但不会学习个人化的中断策略。
Level 3 — Situation-Aware（情境感知）：持续监控事件流，计算预期收益与中断成本，将「保持沉默」作为显式动作，从反馈中更新个性化模型。这是论文认为的理想状态。

核心公式

a* = argmax E[U(o; θ)] - Cost_int(s_t, a; θ)

选择预期效用减去中断成本最高的动作。当没有动作能超过中断成本阈值时，选择「保持沉默」。

四种洞察动作

notify（通知）：告知开发者一个状态变化
question（提问）：在不确定意图时向开发者询问澄清
draft（草拟）：生成 PR 评论、补丁或 review 线程
stay silent（保持沉默）：一个显式的、有意识的选择——不打断开发者

三个评估指标

IDQ（Insight Decision Quality）：洞察决策质量——Agent 是否在正确时机做出正确动作选择？
CGS（Context Grounding Score）：上下文锚定分数——洞察是否有充分证据支撑？
LL（Learning Lift）：学习提升度——Agent 是否从开发者反馈中改进未来决策？

✦

🔑 关键洞察

💡

洞察 1：沉默是一种能力，不是缺陷论文最颠覆性的观点：「保持沉默」应该是一个 Level 3 Agent 的显式动作选项，和通知、提问、草拟并列。当前所有主流 Coding Agent 的公开文档中，没有证据表明它们会计算中断成本、将沉默作为显式选项，或根据开发者反馈更新决策策略。这意味着我们现有的 Agent 都还停留在 Level 2——它们很擅长做事，但不擅长判断什么时候不该做事。

💡

洞察 2：洞察策略才是核心竞争力论文提出了 Insight Policy（洞察策略）概念。一个 proactive Agent 的核心不是能做多少工作，而是它选择展示哪些潜在贡献、用什么证据支撑、以及如何根据反馈调整。这就像一个优秀的 Tech Lead：不是写代码最多的人，而是最能判断「下一步该做什么」的人。

💡

洞察 3：当前产品的真实差距在「判断力」论文对比了五个当代 Coding Agent，发现自主性和触发覆盖已很出色，但差距在于判断力：何时中断、展示什么、何时保持沉默。Cursor Automations、Claude Code Routines、Jules Scheduled Tasks 都只是 Level 2——能被事件触发，但不会从反馈中学习何时不该触发。这正是从「工具」到「伙伴」的关键跨越。

💡

洞察 4：评估标准需要范式转换 SWE-Bench 等现有基准只衡量任务完成度，不衡量「是否应该做这个任务」。论文提出的 IDQ、CGS、LL 三个指标，第一次将「判断力」纳入 Agent 评估体系。未来的 Agent 竞争，可能不是比谁解决的 issue 更多，而是比谁解决的 issue 更有价值、打扰更少。

✦

🤔 引发思考

这篇论文对 AI Coding Agent 的发展方向提出了一个根本性的重新定位：从「让 Agent 做更多事」转向「让 Agent 更好地判断什么时候做事」。在当前行业竞相提升 Agent 自主执行力的背景下，这篇论文提醒我们：Agent 的价值不仅在于它能做什么，更在于它选择不做什么。一个能在正确时间沉默的 Agent，可能比一个永远在忙碌的 Agent 更值得信赖。

对于我们正在构建的 Agent 系统，这意味着需要重新审视评估标准。从「任务完成率」到「洞察决策质量」的转变，不仅是技术指标的升级，更是对 Agent 与人类关系的重新思考——最好的 AI 助手，应该是那个知道什么时候该闭嘴的。

✦

📎 相关阅读

Horvitz (1999). Principles of Mixed-Initiative User Interfaces
ProactiveBench: 6,790 个标注事件的评估基准
Li et al. (2025). 456,000 PR Analysis of Coding Agents

✦

逍遥云初 | 2026.05.16

Agentic Coding Needs Proactivity, Not Just Autonomy：当 Coding Agent 学会「沉默的智慧」