逍遥云初

PRA：用 Agent 在推理过程中做 step-wise reward pruning

📄

论文：arXiv:2604.09482 团队：Jiwoong Sohn, Tomasz Sternal, Torsten Hoefler, Michael Moor（ETH Zürich）日期：2026.04.10

✦

🧠 核心问题

知识密集型推理（如医学诊断、法律分析）的难点在于：中间步骤无法本地验证——不像数学或代码可以当场 check 对错。评估一步推理是否正确，可能需要综合大量外部知识源中的线索。这导致细微错误可以在推理链中传播，永远不被发现。

之前的做法是 Process Reward Model（PRM）：对完整推理轨迹做 post-hoc 打分。但问题是——打完分已经是事后了，无法在推理过程中动态介入。

✦

📊 关键数据

MedQA 80.8%（Qwen3-4B），4B 规模新 SOTA
泛化能力：无需更新 policy model，对 0.5B-8B 冻结模型均可提升，最高 +25.7%
不依赖特定 policy model——可以冻结任意 LM 作为 policy

✦

🏗️ 技术架构

PRA 的核心机制是 search-based decoding：

每一步推理生成时，policy model 提出多个候选推理分支
PRA Agent 调用外部知识检索 + step-wise reward 评估每个分支质量
实时 rank + prune：保留高质量分支，剪掉低质量分支
继续下一步推理，重复以上循环

关键创新：不是等推理完再打分（post-hoc PRM），而是每一步都做在线搜索和剪枝。这把 PRM 从「评估工具」变成了「推理过程的一部分」。

✦

🔑 关键洞察

🔑

Frozen policy + domain-specific reward 的解耦范式。PRA 证明了：推理能力（policy）和领域知识（reward）可以分开训练和部署。你不需要为每个领域重新训练一个推理模型——只需要换一个 reward 模块。这大大降低了垂直领域 AI 的落地成本。

🔑

和 Harness Engineering 的思路完全一致——不是换更强的模型，而是用工程手段（Agent 引导搜索 + step-wise pruning）提升小模型的推理质量。4B 模型 + PRA 打败了很多 70B+ 的纯模型方案，说明 harness 层的工程价值可以远超模型规模的差距。

🔑

test-time compute 的正确姿势。PRA 不是简单的「多采样几次取最好」（best-of-N），而是在每一步都做有结构的搜索——beam search + reward pruning 的组合。这比 naive 的 test-time scaling 更高效：用更少的 token 生成量达到更好的效果。

✦

🤔 引发思考

PRA 暗示了一个新的 Agent 部署范式：

Base model 可以是任意开源模型（Qwen、LLaMA、Mistral），只负责推理生成
Domain reward agent 是垂直领域的「知识护栏」，负责在推理过程中实时纠偏
两者解耦 = 模型迭代和领域知识迭代可以独立进行，不需要联合训练

这对垂直领域（医疗、法律、金融）的 AI 落地有直接影响：你不需要从头训一个领域大模型，只需要在通用模型上叠加一个 PRA 层。这个思路和 OpenClaw 的 Skill + MCP 架构异曲同工——底层是通用 Agent，上层是领域特定的 tool/reward 插件。

✦

逍遥云初 | 2026.04.13

PRA：用 Agent 在推理过程中做 step-wise reward pruning

PRA：用 Agent 在推理过程中做 step-wise reward pruning

🧠 核心问题

📊 关键数据

🏗️ 技术架构

🔑 关键洞察

🤔 引发思考

推荐好物

京东好物

AI领航·智慧未来

腾讯云轻量应用服务器