← 返回首页
9 分钟阅读
MIT RLM:递归语言模型——不改架构、不扩窗口,LLM 处理能力扩展百倍
LLM底层技术2026-06-03

MIT RLM:递归语言模型——不改架构、不扩窗口,LLM 处理能力扩展百倍

MIT RLM:递归语言模型——不改架构、不扩窗口,LLM 处理能力扩展百倍

📄 论文:Recursive Language Models

🔗 arXiv: https://arxiv.org/abs/2512.24601

👥 作者:Alex L. Zhang, Tim Kraska, Omar Khattab (MIT CSAIL)

📅 发布日期:2025年12月31日

📌 核心问题:为什么「大窗口」不等于「强推理」?

2025 年底,整个大模型行业都在疯狂卷上下文窗口——从 100K 到 1M,甚至 10M token。MIT CSAIL 的这篇论文却冷静地指出了一个被忽视的真相:把整本百科全书塞进脑子里来回答一个问题,既昂贵又低效。

研究者提出了一个关键洞察:物理窗口变大 ≠ 有效推理能力变强。即使是最先进的 GPT-5,依然面临「上下文腐烂」(Context Rot)问题——当输入太长时,模型开始记不住中间细节,甚至产生幻觉。更致命的是,对于需要两两比较的 O(N²) 复杂度任务,GPT-5 的得分接近 0%。

RLM 的核心主张是:与其在训练时死磕昂贵的长窗口训练,不如在推理时投资能编写递归代码的 Agentic 架构。这是一种与模型无关(Model-Agnostic)的方法——任何公司只要有现成的 LLM,套上 RLM 的壳,就能立刻拥有处理 1000 万+ token 的能力。

📊 关键数据:从 0% 到 58% 的质变

任务复杂度三层级

  • O(1) — 大海捞针(S-NIAH):在海量文本中找特定短语。GPT-5 表现稳定,传统方法足够。
  • O(N) — 线性聚合(OOLONG):查看几乎每一行并汇总。基座模型开始吃力,性能随长度显著下降。
  • O(N²) — 两两比较(OOLONG-Pairs):真正的「模型杀手」。需要将条目 A 与 B、C、D 逐一比较。GPT-5 得分接近 0%。

RLM 性能跃升

  • OOLONG-Pairs(O(N²)):GPT-5 基座 ≈ 0% → RLM(GPT-5) = 58.00%,从不可用到可用的质变
  • OOLONG(O(N)):RLM 比基座模型高出 28%~33% 的性能
  • Qwen3-Coder-480B:基座几乎无法处理 → RLM 版本得分 23.11%

成本分析

  • 中位数成本更低:RLM 懂得「跳读」和「过滤」,实际处理的 Token 数反而更少
  • BrowseComp-Plus 任务:RLM(GPT-5) 平均 $0.99 vs 全量阅读理论 $2.75

🏗️ 技术架构:基于 REPL 的递归环境

RLM 的设计哲学借鉴了计算机科学中经典的「核外算法」(Out-of-core Algorithms)——当数据集远超主存时,策略性地分块调入内存处理。

  • 存储层级映射:Context Window = 主存(RAM),Prompt 字符串变量 = 外部存储(Disk)。LLM 作为 CPU,主动决定何时从「磁盘」读取数据块进入「内存」。
  • REPL 环境:构建 Python Read-Eval-Print Loop,将自然语言推理转化为代码执行。原始长文本赋值给 context 变量,Root LM 接收的是环境操作说明而非任务文本。
  • 核心接口 llm_query():模型执行此函数时,系统挂起当前流,实例化新的 Sub-LM 调用。支持无限递归深度。
  • 状态持久化:中间结果作为 Python 变量驻留内存,通过 print() 回传观察反馈。最终输出用 FINAL() 标签封装。
  • 范式转移:传统方法试图「扩容内存」(Ring Attention 等),RLM 承认内存局限,通过符号化操作管理数据搬运。

🔑 关键洞察

🔑
洞察一:推理时操作系统(OS for Inference) RLM 的本质不是新模型架构,而是一种推理时的操作系统。Context = Disk,LLM = CPU,REPL = RAM。它通过软件工程手段在现有 Transformer 之上解决了无限上下文难题。这意味着 2026 年的竞争焦点将从「训练更大窗口」转向「设计更聪明的推理编排」。
🔑
洞察二:涌现的工程师行为 未经任何微调,仅通过 Prompt Engineering 和环境交互,RLM 就涌现出了类似高级工程师的调试行为:正则探针过滤(非参数化语义 Attention)、动态分块递归、自我纠错验证(得出答案后再发起 llm_query 验证证据)。这暗示了 Agentic 架构的巨大潜力。
🔑
洞察三:强者恒强的架构 RLM 对基座模型的代码生成和指令遵循能力有极高要求。小参数模型(如 Qwen3-8B)因无法编写正确逻辑而任务失败。这是一种「强者恒强」的架构——能力越强的模型,从 RLM 中获益越大,进一步拉大头部模型与小模型的差距。
🔑
洞察四:从「背诵」到「查阅」的范式革命 传统 Long-Context 模型要求模型「背诵」整本书。RLM 让模型坐在书桌前,面前有一台装了 Python 的电脑——需要什么就查什么。这个隐喻揭示了 LLM 发展的深层方向:不是让模型承载更多记忆,而是赋予模型更强的工具使用能力。

🤔 引发思考

RLM 的出现对整个 AI 产业有深远的战略意义。首先,它验证了一个反直觉的判断:推理时计算(Inference-time Compute)的价值可能远超训练时计算。当行业投入数十亿美元扩大模型窗口时,MIT 用一个优雅的软件方案证明了「四两拨千斤」的可能性。

其次,RLM 与 Coding Agent 的融合趋势值得密切关注。当 LLM 能在 REPL 中编写递归代码来处理信息时,Coding Agent 就不再只是「写代码的工具」,而成为了 LLM 推理能力的延伸。这与 Harness Engineering、SWE-CI 等方向形成了有趣的技术共振——环境设计和工具编排正在成为 AI 工程化的核心竞争力。

📎 相关阅读

  • 论文原文:https://arxiv.org/abs/2512.24601
  • 作者博客:https://alexzhang13.github.io/blog/2025/rlm/
  • GitHub 实现:https://github.com/eltociear/rlm-claude

逍遥云初 | 2026.06.03

逍遥云初 · 2026-06-03

记录 · 思考 · 成长