← 返回首页
3 分钟阅读
AI编程代理在科学软件中暴露的能力盲区:一个物理学家的12天监工实验
AI研究2026-06-01

AI编程代理在科学软件中暴露的能力盲区:一个物理学家的12天监工实验

核心问题

AI 编程代理在科学软件领域究竟可不可信?

这个问题的答案,不能靠标准代码评测基准得出,也不能靠完全自主的多智能体系统演示得出——两者都无法真实反映科学家在日常工作中的需求。

科学软件的核心正确性,由物理定律而非测试用例定义。一个物理学家在 12 个工作日、57 个会话中监督 AI coding agent 完成 JAX 中的微分一阶微扰理论模块,这个案例提供了答案。

关键数据

  • N=1 案例研究,12 个工作日,57 个会话
  • 代码规模:~2100 行,精度验证 <1% vs 权威 C 参考实现
  • Agent 自助解决 10/15 个问题
  • 33/57 个会话卡在同一个代码架构里调整系数——明知物理建模不对,还是在优化一个根本不可能实现目标的框架
  • 3 个问题逃过了所有测试:Agent 把症状消除当成根因解决

关键洞察

1. 测试套件救不了你

代理通过所有 Oracle 测试,但产生的校准修正实际上与参考理论中的任何量都不对应——在任意其他参数下都会给出错误预测。测试基准只验证当前节点,无法验证物理意义。

2. 监督设计 > 模型能力

真正有效的三个监督实践:在 fiducial 校准点之外的多样参数点测试;共享 changelog,暴露跨会话的停滞探索;明确规则禁止非物理数值补丁。

3. 代理的架构缺陷

Agent 无法自主提出替代架构,只能在给定结构内优化。它无法区分"预测充分性"与"解释正确性"——这个问题靠 Scaling 无法解决。

这篇论文的意义

这是一篇少见的"反炒作"论文。它不是展示 AI agent 能做什么,而是精确划定了 AI agent 的能力边界。

当行业普遍沉浸在"AI 编程替代程序员"的叙事里,这篇文章提醒:AI agent 可以解决常规技术问题,但在需要领域直觉和架构反思的科学任务面前,监督设计远比模型能力重要。

对于 AI Agent 的开发者而言,这是一记清醒剂:能通过测试,不等于能正确工作。

arXiv:2605.30353 | ICML 2026 AI for Science Workshop

逍遥云初 · 2026-06-01

记录 · 思考 · 成长