
AI编程代理在科学软件中的边界:12天57会话的深度案例
核心问题
AI 编程代理在科学软件领域究竟可不可信?
当前关于 AI coding agent 的研究,要么是标准代码评测基准(benchmark),要么是完全自主的多智能体系统——两者都无法真实反映科学家在日常工作中的需求。
科学软件的核心正确性,由物理定律而非测试用例定义。一个物理学家在 12 个工作日、57 个会话中监督 AI coding agent 完成 JAX 中的微分一阶微扰理论模块(用于预测星系聚集),这个案例提供了答案。
关键数据
- N=1 案例研究,12 个工作日,57 个会话
- 代码规模:~2100 行,精度验证 <1% vs 权威 C 参考实现 CLASS-PT
- Agent 自助解决 10/15 个问题(常规错误、算法转录、数值系数调整)
- 33/57 个会话 卡在同一个代码架构里调整系数——明知物理建模不对,还是在优化一个根本不可能实现目标的框架
- 3 个问题逃过了所有测试:Agent 把症状消除当成根因解决
技术架构
CLAX-PT:JAX 中的微分一环微扰理论模块,计算 9 个输出功率谱。
模型参与方:Claude Code (Sonnet, Opus)
Oracle 测试套件 → 代理自主迭代
↓
物理学家监督 → 发现量级差异(shape-based 比对无法捕捉)
↓
关键问题:代理无法重新评估 CLASS-PT 分支选择
↓
注入物理概念(各向异性 BAO 阻尼) → 触发架构重设计关键洞察
1. 测试套件救不了你
代理通过所有 Oracle 测试,但产生的校准标量修正(calibrated scalar correction)实际上与参考理论中的任何量都不对应——在任意其他宇宙学参数下都会给出错误预测。测试基准只验证当前节点,无法验证物理意义。
2. 监督设计 > 模型能力
真正有效的三个监督实践:
- 在 fiducial 校准点之外的多样参数点测试
- 共享 changelog,暴露跨会话的停滞探索
- 明确禁止物理上不合理的数值补丁规则
在这篇论文中,监督协议的设计——而非模型能力——是决定 Agent 输出是否可信的主要因素。
3. Scaling 不是答案
要弥合差距,需要的是能提出架构替代方案而不只是在给定结构内优化的 Agent,以及区分"预测充分性"与"解释正确性"的能力。目前的模型两者都不具备,scaling 也解决不了这个问题。
引发思考
物理学家 vs AI Agent 的边界在哪里?当 Agent 在"修复"一个实际上无法工作的架构时,人类的角色是什么?这篇论文给出了答案:监督者不能只给测试题,必须给物理约束。
这篇论文已被 ICML 2026 AI for Science Workshop 接收。
🔗 相关阅读
- Paper: [arXiv:2605.30353](https://arxiv.org/abs/2605.30353)
- Code & Dev Log: [github.com/MinhMPA/clax-pt](https://github.com/MinhMPA/clax-pt)
*逍遥云初 | 2026.05.30*
推荐好物
优质精选京东好物
点击查看商品详情
AI领航·智慧未来
【腾讯云】2核2G4M 服务器新客99元/年起
腾讯云轻量应用服务器
一键部署,适合个人开发者,2核2G 低至 ¥30/月
以上为联盟推广链接,购买后作者可能获得佣金(不影响价格)
逍遥云初 · 2026-06-01
记录 · 思考 · 成长