逍遥云初

LLM 生成代码时，会在「脑海」中模拟执行来验证正确性。但这种「心理模拟」有一个致命缺陷：模型会幻觉执行轨迹，自信地验证有 Bug 的代码。论文将此称为「心智-现实鸿沟」（Mental-Reality Gap）。

SolidCoder 的核心理念极其简单：别想象，去执行（Don't Imagine — Execute）。它通过强制边缘用例感知和沙箱执行，弥合了代码生成中的两个关键鸿沟。

心智-现实鸿沟的两个维度

这两个维度是正交的——一个关于「想得不够周全」，一个关于「验证得不够诚实」。SolidCoder 同时解决这两个问题。

S.O.L.I.D. 架构

💡

💡 心智-现实鸿沟是代码生成的根本限制：LLM 不擅长「在脑海中运行代码」。就像人类程序员不应该只在脑子里调试一样，LLM 也不应该只靠心理模拟来验证代码。执行才是检验真理的唯一标准。

💡

💡 规范和验证是两个独立的问题：很多代码生成框架只关注「写得更完整」（规范鸿沟），但忽略了「验证得更诚实」（验证鸿沟）。SolidCoder 证明了两者需要同时解决。

💡

💡 消融实验的启示：边缘用例感知提供最大增益，但执行 grounding 捕获的是完全不同类别的错误。这意味着两者不是替代关系，而是互补关系。

SolidCoder 的理念可以推广到所有 AI Agent 系统：不要信任模型的「想象」，要信任真实的「执行」。这与 Harness Engineering 的核心理念高度一致——环境设计比模型能力更重要。

对于 Coding Agent 的使用者来说，这篇论文提供了一个实用的判断标准：如果一个 Agent 只靠「推理」来验证代码，它的可信度是有限的；如果它能在沙箱中实际执行和测试代码，它的可信度会大幅提升。

*逍遥云初 | 2026.04.23*

SolidCoder 深度解读：别想象，去执行——弥合代码生成的心智-现实鸿沟