1000 万 token 是什么概念?

大概相当于 15 本《哈利·波特》全集,或者把整个维基百科塞进脑子。

如果你现在把这么多字扔给 GPT-4 或 Claude,它们大概率会当场“死机”,或者直接告诉你:“上下文太长,我记不住。”

这就是大模型圈最尴尬的现实:大家都在卷“上下文窗口”,从 32k 卷到 100k,再到 200k。但 MIT CSAIL 的一群研究员觉得,这种军备竞赛走歪了。

他们搞出了一个叫 RLM(递归语言模型) 的框架。

结果?在 1000 万 token 的超长文本测试中,普通模型直接交白卷(得分 0%),而 MIT 这个框架拿了 91.33%

AI配图

这不是简单的升级,这是对现有玩法的一次“降维打击”。

别再硬撑了,上下文窗口是个伪命题

现在的 AI 模型,有个致命的弱点:记性不好,还健忘。

这就好比你让一个人读完整个图书馆的书,然后让他找某本书里的一句话。读得越多,前面的内容忘得越快,这在技术上叫 “Context Rot”(上下文腐烂)

为了解决这个问题,科技巨头们的思路很粗暴:把脑子(上下文窗口)做大。

但 MIT 的合著者 Alex Zhang 给泼了盆冷水:

AI配图

“有一个熵增论据暗示,随着有效上下文窗口大小的增加,你需要指数级更多的数据样本。”

换句话说,硬扩容不仅成本高得离谱,而且物理上就快到头了。

现有的另一种方案是“摘要”,读一段就总结一段,把前面的内容压缩。但这也有坑:如果你需要随机访问某个特定细节,摘要早就把它丢进垃圾桶了。

MIT 决定换个思路:既然脑子记不住,为什么不把书放在外面,需要哪页翻哪页?

让 AI 学会写代码“翻书”

MIT 的这个 RLM 框架,灵感来自经典计算机里的“核外”算法。

以前处理海量数据,内存不够用怎么办?把数据放在硬盘上,程序只把需要的那一小块读进内存处理。

RLM 把这个逻辑搬到了大模型上。

它不再傻傻地把几百万字的 prompt 一股脑塞进模型的神经网络。相反,它把这些文本当成一个外部环境

整个流程是这样的:

  1. 把书放在桌上超长文本被加载成一个 Python 字符串变量,放在模型的外部环境里。模型一开始根本“看”不到这些字。
  2. AI 变身程序员模型(比如 GPT-5)不再直接读文本,而是写 Python 代码去操作这个变量。
  3. 按需索取模型写代码搜索关键词,比如用正则表达式找“第一章”或者“财务报表”。
  4. 精准打击代码找到了相关片段,RLM 只把这一小段文字拽进模型的“上下文窗口”进行分析。

这就好比让 AI 不再是死记硬背的学生,而是变成了一个会查资料、写脚本的程序员。

老板动嘴,小弟跑腿

在这个架构里,分工明确得像个现代公司。

“根语言模型”是老板通常是 GPT-5 这种能力强的模型。它负责制定计划、写代码、管理数据流。它不干脏活累活。

“递归语言模型”是小弟通常是更小、更快、更便宜的模型。老板写好代码,把找到的文本片段扔给小弟,小弟负责处理这些具体的片段。

比如要分析一本巨著,老板会写个循环代码,识别出每一章的边界,然后指挥小弟去把每一章总结一下。

对于用户来说,这一切都是透明的。你扔进去一串长文,它给你一个答案。但底层逻辑,已经从“死记硬背”变成了“逻辑推理”。

普通模型交白卷,它拿了 91 分

光说不练假把式,MIT 直接上硬核测试。

BrowseComp-Plus 这个基准测试里,输入量高达 600 万到 1100 万 token。

结果惨烈得令人发笑:

  • 标准基础模型直接崩溃,得分 0%
  • CodeAct 和 Summary Agent勉强支撑,得分分别为 51% 和 70.47%。
  • RLM(基于 GPT-5)91.33%

这差距,不是一个量级的。

更狠的是 OOLONG-Pairs 测试,这是一个信息密度极高的推理任务,难度随着输入长度呈二次方增长。

  • 基础 GPT-5惨败,得分只有 0.04%,基本等于瞎猜。
  • RLMF1 分数(精确率和召回率的平衡指标)达到了 58%

这说明 RLM 不仅读得长,而且在处理高密度逻辑时,展现出了普通模型根本不具备的“涌现能力”。

甚至在代码理解任务上,RLM 把 GPT-5 的性能从 24% 直接拉到了 62%,翻了一倍多。

成本更低,但小心“长尾”陷阱

最讽刺的是,虽然 RLM 看起来流程更复杂,又是写代码又是递归调用,但它反而更省钱

在 BrowseComp-Plus 测试中,RLM 的成本比传统的摘要方法便宜了 3 倍

因为它只把真正需要的文本读进昂贵的“上下文窗口”里,而不是把几百万垃圾字都喂给模型。

但天下没有免费的午餐。

研究者发现,RLM 的成本分布有个“长尾效应”。

AI配图

大多数时候很便宜,但如果模型“想多了”,陷入死循环,或者为了确认一个简单细节做了几千次冗余验证,费用就会瞬间爆炸。

比如开源的 Qwen3-Coder 模型,有时候处理个简单任务会尝试几千次子调用。

“今天,你可能必须实现自己的护栏和逻辑来控制 RLM 行为,” Zhang 说。

看来,给 AI 当老板,还得学会给员工设 KPI。

不是替代,是进化

对于企业架构师来说,这事儿意味着什么?

别急着把现有的 RAG(检索增强生成)扔了。

Alex Zhang 说得很明白:RLM 不是 RAG 的替代品,它们是好搭档。RLM 更适合处理那些需要深度推理、多步骤分析的“长视野”任务。

这就像是给大模型装上了一个“外挂大脑”。

以前我们逼着模型把书背下来,现在我们教会了它怎么用目录索引。

当模型学会了写代码来阅读,1000 万 token,或许只是个开始。

参考链接:
https://venturebeat.com/orchestration/mits-new-recursive-framework-lets-llms-process-10-million-tokens-without