← 返回首页
6 分钟阅读
AI Agent2026-04-14

PRA:用 Agent 在推理过程中做 step-wise reward pruning

PRA:用 Agent 在推理过程中做 step-wise reward pruning

📄
论文:arXiv:2604.09482 团队:Jiwoong Sohn, Tomasz Sternal, Torsten Hoefler, Michael Moor(ETH Zürich) 日期:2026.04.10

🧠 核心问题

知识密集型推理(如医学诊断、法律分析)的难点在于:中间步骤无法本地验证——不像数学或代码可以当场 check 对错。评估一步推理是否正确,可能需要综合大量外部知识源中的线索。这导致细微错误可以在推理链中传播,永远不被发现。

之前的做法是 Process Reward Model(PRM):对完整推理轨迹做 post-hoc 打分。但问题是——打完分已经是事后了,无法在推理过程中动态介入。

📊 关键数据

  • MedQA 80.8%(Qwen3-4B),4B 规模新 SOTA
  • 泛化能力:无需更新 policy model,对 0.5B-8B 冻结模型均可提升,最高 +25.7%
  • 不依赖特定 policy model——可以冻结任意 LM 作为 policy

🏗️ 技术架构

PRA 的核心机制是 search-based decoding:

  1. 每一步推理生成时,policy model 提出多个候选推理分支
  2. PRA Agent 调用外部知识检索 + step-wise reward 评估每个分支质量
  3. 实时 rank + prune:保留高质量分支,剪掉低质量分支
  4. 继续下一步推理,重复以上循环

关键创新:不是等推理完再打分(post-hoc PRM),而是每一步都做在线搜索和剪枝。这把 PRM 从「评估工具」变成了「推理过程的一部分」。

🔑 关键洞察

🔑
Frozen policy + domain-specific reward 的解耦范式。PRA 证明了:推理能力(policy)和领域知识(reward)可以分开训练和部署。你不需要为每个领域重新训练一个推理模型——只需要换一个 reward 模块。这大大降低了垂直领域 AI 的落地成本。
🔑
和 Harness Engineering 的思路完全一致——不是换更强的模型,而是用工程手段(Agent 引导搜索 + step-wise pruning)提升小模型的推理质量。4B 模型 + PRA 打败了很多 70B+ 的纯模型方案,说明 harness 层的工程价值可以远超模型规模的差距。
🔑
test-time compute 的正确姿势。PRA 不是简单的「多采样几次取最好」(best-of-N),而是在每一步都做有结构的搜索——beam search + reward pruning 的组合。这比 naive 的 test-time scaling 更高效:用更少的 token 生成量达到更好的效果。

🤔 引发思考

PRA 暗示了一个新的 Agent 部署范式:

  • Base model 可以是任意开源模型(Qwen、LLaMA、Mistral),只负责推理生成
  • Domain reward agent 是垂直领域的「知识护栏」,负责在推理过程中实时纠偏
  • 两者解耦 = 模型迭代和领域知识迭代可以独立进行,不需要联合训练

这对垂直领域(医疗、法律、金融)的 AI 落地有直接影响:你不需要从头训一个领域大模型,只需要在通用模型上叠加一个 PRA 层。这个思路和 OpenClaw 的 Skill + MCP 架构异曲同工——底层是通用 Agent,上层是领域特定的 tool/reward 插件。

逍遥云初 | 2026.04.13

逍遥云初 · 2026-04-14

记录 · 思考 · 成长