MIT 搞了个“作弊”框架，让 LLM 吞下 1000 万 token，还不忘本

1000 万 token 是什么概念？

大概相当于 15 本《哈利·波特》全集，或者把整个维基百科塞进脑子。

如果你现在把这么多字扔给 GPT-4 或 Claude，它们大概率会当场“死机”，或者直接告诉你：“上下文太长，我记不住。”

这就是大模型圈最尴尬的现实：大家都在卷“上下文窗口”，从 32k 卷到 100k，再到 200k。但 MIT CSAIL 的一群研究员觉得，这种军备竞赛走歪了。

他们搞出了一个叫 RLM（递归语言模型） 的框架。

结果？在 1000 万 token 的超长文本测试中，普通模型直接交白卷（得分 0%），而 MIT 这个框架拿了 91.33%。

AI配图

这不是简单的升级，这是对现有玩法的一次“降维打击”。

别再硬撑了，上下文窗口是个伪命题

现在的 AI 模型，有个致命的弱点：记性不好，还健忘。

这就好比你让一个人读完整个图书馆的书，然后让他找某本书里的一句话。读得越多，前面的内容忘得越快，这在技术上叫 “Context Rot”（上下文腐烂）。

为了解决这个问题，科技巨头们的思路很粗暴：把脑子（上下文窗口）做大。

但 MIT 的合著者 Alex Zhang 给泼了盆冷水：

AI配图

“有一个熵增论据暗示，随着有效上下文窗口大小的增加，你需要指数级更多的数据样本。”

换句话说，硬扩容不仅成本高得离谱，而且物理上就快到头了。

现有的另一种方案是“摘要”，读一段就总结一段，把前面的内容压缩。但这也有坑：如果你需要随机访问某个特定细节，摘要早就把它丢进垃圾桶了。

MIT 决定换个思路：既然脑子记不住，为什么不把书放在外面，需要哪页翻哪页？

让 AI 学会写代码“翻书”

MIT 的这个 RLM 框架，灵感来自经典计算机里的“核外”算法。

以前处理海量数据，内存不够用怎么办？把数据放在硬盘上，程序只把需要的那一小块读进内存处理。

RLM 把这个逻辑搬到了大模型上。

它不再傻傻地把几百万字的 prompt 一股脑塞进模型的神经网络。相反，它把这些文本当成一个外部环境。

整个流程是这样的：

把书放在桌上：超长文本被加载成一个 Python 字符串变量，放在模型的外部环境里。模型一开始根本“看”不到这些字。
AI 变身程序员：模型（比如 GPT-5）不再直接读文本，而是写 Python 代码去操作这个变量。
按需索取：模型写代码搜索关键词，比如用正则表达式找“第一章”或者“财务报表”。
精准打击：代码找到了相关片段，RLM 只把这一小段文字拽进模型的“上下文窗口”进行分析。

这就好比让 AI 不再是死记硬背的学生，而是变成了一个会查资料、写脚本的程序员。

老板动嘴，小弟跑腿

在这个架构里，分工明确得像个现代公司。

“根语言模型”是老板：通常是 GPT-5 这种能力强的模型。它负责制定计划、写代码、管理数据流。它不干脏活累活。

“递归语言模型”是小弟：通常是更小、更快、更便宜的模型。老板写好代码，把找到的文本片段扔给小弟，小弟负责处理这些具体的片段。

比如要分析一本巨著，老板会写个循环代码，识别出每一章的边界，然后指挥小弟去把每一章总结一下。

对于用户来说，这一切都是透明的。你扔进去一串长文，它给你一个答案。但底层逻辑，已经从“死记硬背”变成了“逻辑推理”。

普通模型交白卷，它拿了 91 分

光说不练假把式，MIT 直接上硬核测试。

在 BrowseComp-Plus 这个基准测试里，输入量高达 600 万到 1100 万 token。

结果惨烈得令人发笑：

标准基础模型：直接崩溃，得分 0%。
CodeAct 和 Summary Agent：勉强支撑，得分分别为 51% 和 70.47%。
RLM（基于 GPT-5）：91.33%。

这差距，不是一个量级的。

更狠的是 OOLONG-Pairs 测试，这是一个信息密度极高的推理任务，难度随着输入长度呈二次方增长。

基础 GPT-5：惨败，得分只有 0.04%，基本等于瞎猜。
RLM：F1 分数（精确率和召回率的平衡指标）达到了 58%。

这说明 RLM 不仅读得长，而且在处理高密度逻辑时，展现出了普通模型根本不具备的“涌现能力”。

甚至在代码理解任务上，RLM 把 GPT-5 的性能从 24% 直接拉到了 62%，翻了一倍多。

成本更低，但小心“长尾”陷阱

最讽刺的是，虽然 RLM 看起来流程更复杂，又是写代码又是递归调用，但它反而更省钱。

在 BrowseComp-Plus 测试中，RLM 的成本比传统的摘要方法便宜了 3 倍。

因为它只把真正需要的文本读进昂贵的“上下文窗口”里，而不是把几百万垃圾字都喂给模型。

但天下没有免费的午餐。

研究者发现，RLM 的成本分布有个“长尾效应”。

AI配图

大多数时候很便宜，但如果模型“想多了”，陷入死循环，或者为了确认一个简单细节做了几千次冗余验证，费用就会瞬间爆炸。

比如开源的 Qwen3-Coder 模型，有时候处理个简单任务会尝试几千次子调用。

“今天，你可能必须实现自己的护栏和逻辑来控制 RLM 行为，” Zhang 说。

看来，给 AI 当老板，还得学会给员工设 KPI。

不是替代，是进化

对于企业架构师来说，这事儿意味着什么？

别急着把现有的 RAG（检索增强生成）扔了。

Alex Zhang 说得很明白：RLM 不是 RAG 的替代品，它们是好搭档。RLM 更适合处理那些需要深度推理、多步骤分析的“长视野”任务。

这就像是给大模型装上了一个“外挂大脑”。

以前我们逼着模型把书背下来，现在我们教会了它怎么用目录索引。

当模型学会了写代码来阅读，1000 万 token，或许只是个开始。

参考链接：
https://venturebeat.com/orchestration/mits-new-recursive-framework-lets-llms-process-10-million-tokens-without