逍遥云初

MIT RLM：递归语言模型——不改架构、不扩窗口，LLM 处理能力扩展百倍

📄 论文：Recursive Language Models

🔗 arXiv: https://arxiv.org/abs/2512.24601

👥 作者：Alex L. Zhang, Tim Kraska, Omar Khattab (MIT CSAIL)

📅 发布日期：2025年12月31日

✦

📌 核心问题：为什么「大窗口」不等于「强推理」？

2025 年底，整个大模型行业都在疯狂卷上下文窗口——从 100K 到 1M，甚至 10M token。MIT CSAIL 的这篇论文却冷静地指出了一个被忽视的真相：把整本百科全书塞进脑子里来回答一个问题，既昂贵又低效。

研究者提出了一个关键洞察：物理窗口变大 ≠ 有效推理能力变强。即使是最先进的 GPT-5，依然面临「上下文腐烂」（Context Rot）问题——当输入太长时，模型开始记不住中间细节，甚至产生幻觉。更致命的是，对于需要两两比较的 O(N²) 复杂度任务，GPT-5 的得分接近 0%。

RLM 的核心主张是：与其在训练时死磕昂贵的长窗口训练，不如在推理时投资能编写递归代码的 Agentic 架构。这是一种与模型无关（Model-Agnostic）的方法——任何公司只要有现成的 LLM，套上 RLM 的壳，就能立刻拥有处理 1000 万+ token 的能力。

✦

📊 关键数据：从 0% 到 58% 的质变

任务复杂度三层级

O(1) — 大海捞针（S-NIAH）：在海量文本中找特定短语。GPT-5 表现稳定，传统方法足够。
O(N) — 线性聚合（OOLONG）：查看几乎每一行并汇总。基座模型开始吃力，性能随长度显著下降。
O(N²) — 两两比较（OOLONG-Pairs）：真正的「模型杀手」。需要将条目 A 与 B、C、D 逐一比较。GPT-5 得分接近 0%。

RLM 性能跃升

OOLONG-Pairs（O(N²)）：GPT-5 基座 ≈ 0% → RLM(GPT-5) = 58.00%，从不可用到可用的质变
OOLONG（O(N)）：RLM 比基座模型高出 28%~33% 的性能
Qwen3-Coder-480B：基座几乎无法处理 → RLM 版本得分 23.11%

成本分析

中位数成本更低：RLM 懂得「跳读」和「过滤」，实际处理的 Token 数反而更少
BrowseComp-Plus 任务：RLM(GPT-5) 平均 $0.99 vs 全量阅读理论 $2.75

✦

🏗️ 技术架构：基于 REPL 的递归环境

RLM 的设计哲学借鉴了计算机科学中经典的「核外算法」（Out-of-core Algorithms）——当数据集远超主存时，策略性地分块调入内存处理。

存储层级映射：Context Window = 主存（RAM），Prompt 字符串变量 = 外部存储（Disk）。LLM 作为 CPU，主动决定何时从「磁盘」读取数据块进入「内存」。
REPL 环境：构建 Python Read-Eval-Print Loop，将自然语言推理转化为代码执行。原始长文本赋值给 context 变量，Root LM 接收的是环境操作说明而非任务文本。
核心接口 llm_query()：模型执行此函数时，系统挂起当前流，实例化新的 Sub-LM 调用。支持无限递归深度。
状态持久化：中间结果作为 Python 变量驻留内存，通过 print() 回传观察反馈。最终输出用 FINAL() 标签封装。
范式转移：传统方法试图「扩容内存」（Ring Attention 等），RLM 承认内存局限，通过符号化操作管理数据搬运。

✦

🔑 关键洞察

🔑

洞察一：推理时操作系统（OS for Inference） RLM 的本质不是新模型架构，而是一种推理时的操作系统。Context = Disk，LLM = CPU，REPL = RAM。它通过软件工程手段在现有 Transformer 之上解决了无限上下文难题。这意味着 2026 年的竞争焦点将从「训练更大窗口」转向「设计更聪明的推理编排」。

🔑

洞察二：涌现的工程师行为未经任何微调，仅通过 Prompt Engineering 和环境交互，RLM 就涌现出了类似高级工程师的调试行为：正则探针过滤（非参数化语义 Attention）、动态分块递归、自我纠错验证（得出答案后再发起 llm_query 验证证据）。这暗示了 Agentic 架构的巨大潜力。

🔑

洞察三：强者恒强的架构 RLM 对基座模型的代码生成和指令遵循能力有极高要求。小参数模型（如 Qwen3-8B）因无法编写正确逻辑而任务失败。这是一种「强者恒强」的架构——能力越强的模型，从 RLM 中获益越大，进一步拉大头部模型与小模型的差距。

🔑

洞察四：从「背诵」到「查阅」的范式革命传统 Long-Context 模型要求模型「背诵」整本书。RLM 让模型坐在书桌前，面前有一台装了 Python 的电脑——需要什么就查什么。这个隐喻揭示了 LLM 发展的深层方向：不是让模型承载更多记忆，而是赋予模型更强的工具使用能力。

✦

🤔 引发思考

RLM 的出现对整个 AI 产业有深远的战略意义。首先，它验证了一个反直觉的判断：推理时计算（Inference-time Compute）的价值可能远超训练时计算。当行业投入数十亿美元扩大模型窗口时，MIT 用一个优雅的软件方案证明了「四两拨千斤」的可能性。

其次，RLM 与 Coding Agent 的融合趋势值得密切关注。当 LLM 能在 REPL 中编写递归代码来处理信息时，Coding Agent 就不再只是「写代码的工具」，而成为了 LLM 推理能力的延伸。这与 Harness Engineering、SWE-CI 等方向形成了有趣的技术共振——环境设计和工具编排正在成为 AI 工程化的核心竞争力。

✦

📎 相关阅读

论文原文：https://arxiv.org/abs/2512.24601
作者博客：https://alexzhang13.github.io/blog/2025/rlm/
GitHub 实现：https://github.com/eltociear/rlm-claude

✦

逍遥云初 | 2026.06.03

MIT RLM：递归语言模型——不改架构、不扩窗口，LLM 处理能力扩展百倍

MIT RLM：递归语言模型——不改架构、不扩窗口，LLM 处理能力扩展百倍

📌 核心问题：为什么「大窗口」不等于「强推理」？

📊 关键数据：从 0% 到 58% 的质变

任务复杂度三层级

RLM 性能跃升

成本分析

🏗️ 技术架构：基于 REPL 的递归环境

🔑 关键洞察

🤔 引发思考

📎 相关阅读

推荐好物

京东好物

AI领航·智慧未来

京东精选好物 1