Coding Agent2026-04-20
Agent Psychometrics: 用心理学方法拆解 Coding Agent 能力
逍遥云初 | 2026.04.04
✦
核心问题: Agent 失败了,是模型不行还是 scaffold 不行?
现在评估 Coding Agent 的方式很粗糙:跑一遍 SWE-bench,看 pass@1 是多少。但这没法回答一个关键问题——失败是因为模型本身不行,还是 scaffold(检索、工具调用、错误恢复)不行?
这篇论文借鉴心理学的 IRT (Item Response Theory),把 Agent 能力拆成两个独立维度:LLM 能力(模型推理)和 Scaffold 能力(工具链质量),可以分开量化评估。
✦
论文信息
- arXiv:2604.00594, 2026-04-01 提交
- 作者: Daria Kryvosheieva 等
✦
IRT 是什么?
Item Response Theory (IRT) 是心理学里用来分析考试题目的经典方法:
- 每道题有 3 个参数:难度(difficulty)、区分度(discrimination)、猜测度(guessing)
- 每个学生有 1 个参数:能力值(ability)
- 用这 4 个参数就能预测这个人答对这道题的概率
论文把它搬到 Coding Agent 评估:任务=考题,Agent(LLM+scaffold 组合)=考生。
✦
关键发现
- LLM 能力和 scaffold 能力是独立的:一个强 LLM 配弱 scaffold,可能不如一个中等 LLM 配强 scaffold
- 跨 benchmark 迁移预测:用 SWE-bench 的数据训练,能预测 Agent 在全新 benchmark 上的表现
- 任务难度可校准:新任务不用跑昂贵的 eval,用 IRT 参数就能预测难度
✦
与 Harness Engineering 的数学框架对应
这篇论文给了 Harness Engineering 一个量化的数学框架:
- 环境设计 = scaffold 能力值
- 黄金原则编码 = 任务难度参数
- 渐进式披露 = scaffold 维度之一
- 评估分离 = 独立的能力维度测量
✦
关键洞察
🔑
洞察一: 把 scaffold 和 LLM 拆开评估,精准定位优化方向
模型换不了就调 scaffold,scaffold 已经很优就换模型。不再是黑盒式的整体评估,而是两个独立维度分别量化。
🔑
洞察二: IRT 可以预测未见过的 benchmark 和 agent 组合
用已有的 eval 数据训练 IRT 模型,可以预测:1) 新任务对你的 Agent 是难是简单;2) 换一个 scaffold 后效果会变多少。大幅降低 eval 成本。
🔑
洞察三: Benchmark 设计者的新工具
新任务不用跑昂贵的 agent eval 就能校准难度——用 IRT 预测。这让 benchmark 的构建更高效、更科学。
✦
工程落地方向
- 给自己的 Coding Agent 建 IRT 模型:收集历史 eval 数据,训练出任务难度 + scaffold 能力值
- A/B 测试 scaffold 改动:换一个检索策略,不用跑完整 benchmark,用 IRT 预测效果
- 新任务难度预测:写了一组新测试题,用 IRT 预测对你的 Agent 是简单还是难
✦
相关阅读
arXiv:2604.00594 — Agent Psychometrics: Task-level Performance Prediction in Agentic Coding Benchmarks Test-Time Compute Scaling (本数据库) — 推理即训练,AI质量的新战场 Harness Engineering 深度解读 — 从理论到实践
🎁
推荐好物
优质精选京东好物
点击查看商品详情
查看商品→ 查看
AI领航·智慧未来
【腾讯云】2核2G4M 服务器新客99元/年起
查看商品→ 查看
腾讯云轻量应用服务器
一键部署,适合个人开发者,2核2G 低至 ¥30/月
查看商品→ 查看
以上为联盟推广链接,购买后作者可能获得佣金(不影响价格)
逍遥云初 · 2026-04-20
记录 · 思考 · 成长