
MIT RLM:递归语言模型——不改架构、不扩窗口,LLM 处理能力扩展百倍
MIT RLM:递归语言模型——不改架构、不扩窗口,LLM 处理能力扩展百倍
📄 论文:Recursive Language Models
🔗 arXiv: https://arxiv.org/abs/2512.24601
👥 作者:Alex L. Zhang, Tim Kraska, Omar Khattab (MIT CSAIL)
📅 发布日期:2025年12月31日
📌 核心问题:为什么「大窗口」不等于「强推理」?
2025 年底,整个大模型行业都在疯狂卷上下文窗口——从 100K 到 1M,甚至 10M token。MIT CSAIL 的这篇论文却冷静地指出了一个被忽视的真相:把整本百科全书塞进脑子里来回答一个问题,既昂贵又低效。
研究者提出了一个关键洞察:物理窗口变大 ≠ 有效推理能力变强。即使是最先进的 GPT-5,依然面临「上下文腐烂」(Context Rot)问题——当输入太长时,模型开始记不住中间细节,甚至产生幻觉。更致命的是,对于需要两两比较的 O(N²) 复杂度任务,GPT-5 的得分接近 0%。
RLM 的核心主张是:与其在训练时死磕昂贵的长窗口训练,不如在推理时投资能编写递归代码的 Agentic 架构。这是一种与模型无关(Model-Agnostic)的方法——任何公司只要有现成的 LLM,套上 RLM 的壳,就能立刻拥有处理 1000 万+ token 的能力。
📊 关键数据:从 0% 到 58% 的质变
任务复杂度三层级
- O(1) — 大海捞针(S-NIAH):在海量文本中找特定短语。GPT-5 表现稳定,传统方法足够。
- O(N) — 线性聚合(OOLONG):查看几乎每一行并汇总。基座模型开始吃力,性能随长度显著下降。
- O(N²) — 两两比较(OOLONG-Pairs):真正的「模型杀手」。需要将条目 A 与 B、C、D 逐一比较。GPT-5 得分接近 0%。
RLM 性能跃升
- OOLONG-Pairs(O(N²)):GPT-5 基座 ≈ 0% → RLM(GPT-5) = 58.00%,从不可用到可用的质变
- OOLONG(O(N)):RLM 比基座模型高出 28%~33% 的性能
- Qwen3-Coder-480B:基座几乎无法处理 → RLM 版本得分 23.11%
成本分析
- 中位数成本更低:RLM 懂得「跳读」和「过滤」,实际处理的 Token 数反而更少
- BrowseComp-Plus 任务:RLM(GPT-5) 平均 $0.99 vs 全量阅读理论 $2.75
🏗️ 技术架构:基于 REPL 的递归环境
RLM 的设计哲学借鉴了计算机科学中经典的「核外算法」(Out-of-core Algorithms)——当数据集远超主存时,策略性地分块调入内存处理。
- 存储层级映射:Context Window = 主存(RAM),Prompt 字符串变量 = 外部存储(Disk)。LLM 作为 CPU,主动决定何时从「磁盘」读取数据块进入「内存」。
- REPL 环境:构建 Python Read-Eval-Print Loop,将自然语言推理转化为代码执行。原始长文本赋值给 context 变量,Root LM 接收的是环境操作说明而非任务文本。
- 核心接口 llm_query():模型执行此函数时,系统挂起当前流,实例化新的 Sub-LM 调用。支持无限递归深度。
- 状态持久化:中间结果作为 Python 变量驻留内存,通过 print() 回传观察反馈。最终输出用 FINAL() 标签封装。
- 范式转移:传统方法试图「扩容内存」(Ring Attention 等),RLM 承认内存局限,通过符号化操作管理数据搬运。
🔑 关键洞察
🤔 引发思考
RLM 的出现对整个 AI 产业有深远的战略意义。首先,它验证了一个反直觉的判断:推理时计算(Inference-time Compute)的价值可能远超训练时计算。当行业投入数十亿美元扩大模型窗口时,MIT 用一个优雅的软件方案证明了「四两拨千斤」的可能性。
其次,RLM 与 Coding Agent 的融合趋势值得密切关注。当 LLM 能在 REPL 中编写递归代码来处理信息时,Coding Agent 就不再只是「写代码的工具」,而成为了 LLM 推理能力的延伸。这与 Harness Engineering、SWE-CI 等方向形成了有趣的技术共振——环境设计和工具编排正在成为 AI 工程化的核心竞争力。
📎 相关阅读
- 论文原文:https://arxiv.org/abs/2512.24601
- 作者博客:https://alexzhang13.github.io/blog/2025/rlm/
- GitHub 实现:https://github.com/eltociear/rlm-claude
逍遥云初 | 2026.06.03
推荐好物
优质精选以上为联盟推广链接,购买后作者可能获得佣金(不影响价格)
逍遥云初 · 2026-06-03
记录 · 思考 · 成长