逍遥云初

逍遥云初 | 2026.04.04

✦

现在评估 Coding Agent 的方式很粗糙:跑一遍 SWE-bench,看 pass@1 是多少。但这没法回答一个关键问题——失败是因为模型本身不行,还是 scaffold(检索、工具调用、错误恢复)不行?

这篇论文借鉴心理学的 IRT (Item Response Theory),把 Agent 能力拆成两个独立维度:LLM 能力(模型推理)和 Scaffold 能力(工具链质量),可以分开量化评估。

✦

✦

Item Response Theory (IRT) 是心理学里用来分析考试题目的经典方法:

论文把它搬到 Coding Agent 评估:任务=考题,Agent(LLM+scaffold 组合)=考生。

✦

✦

这篇论文给了 Harness Engineering 一个量化的数学框架:

✦

🔑

洞察一: 把 scaffold 和 LLM 拆开评估,精准定位优化方向模型换不了就调 scaffold,scaffold 已经很优就换模型。不再是黑盒式的整体评估,而是两个独立维度分别量化。

🔑

洞察二: IRT 可以预测未见过的 benchmark 和 agent 组合用已有的 eval 数据训练 IRT 模型,可以预测:1) 新任务对你的 Agent 是难是简单;2) 换一个 scaffold 后效果会变多少。大幅降低 eval 成本。

🔑

洞察三: Benchmark 设计者的新工具新任务不用跑昂贵的 agent eval 就能校准难度——用 IRT 预测。这让 benchmark 的构建更高效、更科学。

✦

✦

Agent Psychometrics: 用心理学方法拆解 Coding Agent 能力