AI Agent2026-04-14
PRA:用 Agent 在推理过程中做 step-wise reward pruning
PRA:用 Agent 在推理过程中做 step-wise reward pruning
📄
论文:arXiv:2604.09482
团队:Jiwoong Sohn, Tomasz Sternal, Torsten Hoefler, Michael Moor(ETH Zürich)
日期:2026.04.10
✦
🧠 核心问题
知识密集型推理(如医学诊断、法律分析)的难点在于:中间步骤无法本地验证——不像数学或代码可以当场 check 对错。评估一步推理是否正确,可能需要综合大量外部知识源中的线索。这导致细微错误可以在推理链中传播,永远不被发现。
之前的做法是 Process Reward Model(PRM):对完整推理轨迹做 post-hoc 打分。但问题是——打完分已经是事后了,无法在推理过程中动态介入。
✦
📊 关键数据
- MedQA 80.8%(Qwen3-4B),4B 规模新 SOTA
- 泛化能力:无需更新 policy model,对 0.5B-8B 冻结模型均可提升,最高 +25.7%
- 不依赖特定 policy model——可以冻结任意 LM 作为 policy
✦
🏗️ 技术架构
PRA 的核心机制是 search-based decoding:
- 每一步推理生成时,policy model 提出多个候选推理分支
- PRA Agent 调用外部知识检索 + step-wise reward 评估每个分支质量
- 实时 rank + prune:保留高质量分支,剪掉低质量分支
- 继续下一步推理,重复以上循环
关键创新:不是等推理完再打分(post-hoc PRM),而是每一步都做在线搜索和剪枝。这把 PRM 从「评估工具」变成了「推理过程的一部分」。
✦
🔑 关键洞察
🔑
Frozen policy + domain-specific reward 的解耦范式。PRA 证明了:推理能力(policy)和领域知识(reward)可以分开训练和部署。你不需要为每个领域重新训练一个推理模型——只需要换一个 reward 模块。这大大降低了垂直领域 AI 的落地成本。
🔑
和 Harness Engineering 的思路完全一致——不是换更强的模型,而是用工程手段(Agent 引导搜索 + step-wise pruning)提升小模型的推理质量。4B 模型 + PRA 打败了很多 70B+ 的纯模型方案,说明 harness 层的工程价值可以远超模型规模的差距。
🔑
test-time compute 的正确姿势。PRA 不是简单的「多采样几次取最好」(best-of-N),而是在每一步都做有结构的搜索——beam search + reward pruning 的组合。这比 naive 的 test-time scaling 更高效:用更少的 token 生成量达到更好的效果。
✦
🤔 引发思考
PRA 暗示了一个新的 Agent 部署范式:
- Base model 可以是任意开源模型(Qwen、LLaMA、Mistral),只负责推理生成
- Domain reward agent 是垂直领域的「知识护栏」,负责在推理过程中实时纠偏
- 两者解耦 = 模型迭代和领域知识迭代可以独立进行,不需要联合训练
这对垂直领域(医疗、法律、金融)的 AI 落地有直接影响:你不需要从头训一个领域大模型,只需要在通用模型上叠加一个 PRA 层。这个思路和 OpenClaw 的 Skill + MCP 架构异曲同工——底层是通用 Agent,上层是领域特定的 tool/reward 插件。
✦
逍遥云初 | 2026.04.13
🎁
推荐好物
优质精选京东好物
点击查看商品详情
查看商品→ 查看
AI领航·智慧未来
【腾讯云】2核2G4M 服务器新客99元/年起
查看商品→ 查看
腾讯云轻量应用服务器
一键部署,适合个人开发者,2核2G 低至 ¥30/月
查看商品→ 查看
以上为联盟推广链接,购买后作者可能获得佣金(不影响价格)
逍遥云初 · 2026-04-14
记录 · 思考 · 成长