逍遥云初

AI 编程代理在科学软件领域究竟可不可信？

这个问题的答案，不能靠标准代码评测基准得出，也不能靠完全自主的多智能体系统演示得出——两者都无法真实反映科学家在日常工作中的需求。

科学软件的核心正确性，由物理定律而非测试用例定义。一个物理学家在 12 个工作日、57 个会话中监督 AI coding agent 完成 JAX 中的微分一阶微扰理论模块，这个案例提供了答案。

1. 测试套件救不了你

代理通过所有 Oracle 测试，但产生的校准修正实际上与参考理论中的任何量都不对应——在任意其他参数下都会给出错误预测。测试基准只验证当前节点，无法验证物理意义。

2. 监督设计 > 模型能力

真正有效的三个监督实践：在 fiducial 校准点之外的多样参数点测试；共享 changelog，暴露跨会话的停滞探索；明确规则禁止非物理数值补丁。

3. 代理的架构缺陷

Agent 无法自主提出替代架构，只能在给定结构内优化。它无法区分"预测充分性"与"解释正确性"——这个问题靠 Scaling 无法解决。

这是一篇少见的"反炒作"论文。它不是展示 AI agent 能做什么，而是精确划定了 AI agent 的能力边界。

当行业普遍沉浸在"AI 编程替代程序员"的叙事里，这篇文章提醒：AI agent 可以解决常规技术问题，但在需要领域直觉和架构反思的科学任务面前，监督设计远比模型能力重要。

对于 AI Agent 的开发者而言，这是一记清醒剂：能通过测试，不等于能正确工作。

✦

arXiv:2605.30353 | ICML 2026 AI for Science Workshop

AI编程代理在科学软件中暴露的能力盲区：一个物理学家的12天监工实验