清华团队推出 IndexCache：长文本推理提速 1.8 倍，砍掉 75% 冗余计算

20万token压进10秒，清华这波操作让AI算力成本直接砍半

19.5秒到10.7秒。

处理20万token的长文本，首包时间被压缩近一半。更夸张的是，研究团队从代码里硬生生挖掉了75%的冗余计算，而模型性能纹丝不动——甚至在数学推理测试上，分数还从91.0涨到了92.6。

这是清华和Z.ai联合搞出的新活儿IndexCache。他们盯上了当下最火的DeepSeek Sparse Attention（DSA）架构，发现了一个连DeepSeek自己都没完全解决的"隐形税"。

长文本的"天价账单"，DSA也躲不过的坑

大模型处理长上下文，从来都是算力黑洞。

自我注意力机制（Self-Attention）的复杂度随序列长度二次方爆炸。简单说，20万token的文本，计算量不是1万token的20倍，而是400倍。这也是为什么长文档分析、多步Agent工作流这些场景，能让企业的云账单瞬间爆表。

DeepSeek Sparse Attention（DSA）曾被视作救命稻草。它不搞"全员参与"，而是让每层模型只关注最相关的token子集。通过一个叫"闪电索引器"（lightning indexer）的轻量模块，DSA把核心注意力计算从二次方砍到了线性。

但清华团队发现，DSA虽然省了主菜的钱，却在小料上疯狂超支。

那个轻量的indexer模块，本身依然是二次方复杂度。随着上下文拉长，模型花在"筛选token"上的时间反而成了新瓶颈。特别是在预填充（prefill）阶段，indexer的延迟 tax 会指数级飙升。

DSA让大车变轻了，但检查每扇门要不要关的"保安"反而累趴了。

研究团队跑了一遍DSA模型的内部数据，发现相邻的Transformer层，选择的token子集高度重合，重叠率高达70%到100%。

也就是说，第N层费劲巴拉筛选出的重要token，和第N+1层、第N+2层要用的，基本是同一批。

基于这个观察，IndexCache把模型层分成两类：Full层（F层）和Shared层（S层）。F层保留完整的indexer，认真干活，把选中的token索引存进缓存；S层则直接躺平，复制最近一个F层的缓存结果，跳过计算。

这不是传统的KV Cache压缩技术。用论文作者的话说："IndexCache干掉的是计算冗余，而不只是内存占用。它和现有的缓存优化是正交的，可以叠加使用。"

在300亿参数的GLM-4.7 Flash上，IndexCache展现了暴力美学。

当上下文拉到20万token时，预填充延迟从19.5秒降到10.7秒，提速1.82倍；生成阶段的吞吐量从每秒58个token涨到86个，提升1.48倍。服务器满载时，总解码吞吐量直接跳涨51%。

更魔幻的是质量。用"训练无关"方案（不需要重新训练模型，只靠贪心算法选层）砍掉75%的indexer后，模型在长文本基准测试上的平均分从50.2微降到49.9，几乎无损。但在AIME 2025数学推理测试上，优化后的模型居然比原版还高了1.6分。

按理说精简计算会损失精度，但IndexCache似乎帮模型过滤了噪声。

在7440亿参数的GLM-5巨兽上，IndexCache同样稳如老狗。10万token以上场景提速至少1.3倍，质量保持率接近100%。

对企业来说，这意味着长上下文场景（RAG、文档分析、Agent流程）的部署成本能直接砍掉20%。短文本场景也能省5%左右。

IndexCache提供了两种玩法。

训练无关路线适合拿现成DSA模型（如DeepSeek、GLM系列）直接优化的团队。通过贪心算法跑一小批校准数据，自动决定哪些层做F层、哪些做S层，不用改模型权重。

训练感知路线则面向从头预训练或深度微调的硬核玩家。在训练时加入"多层蒸馏损失"，让F层学会选出让后续所有S层都满意的token共识。

目前开源补丁已经怼进了vLLM和SGLang等主流推理引擎。作者提醒，校准时最好用领域特定数据，"让层共享模式对齐真实 workload，别拿通用数据集糊弄"。

IndexCache的意义不止于一个补丁。

它暗示了一个行业转向：过去大家卷完训练卷架构，卷完架构再回头优化推理，属于"先污染后治理"。但现在，架构设计从一开始就要考虑推理约束。

就像作者说的，未来的基础模型，"可扩展性"不再只指参数量能堆多大，而是指在现实世界的吞吐和延迟约束下，能跑多快、多省。

当20万token的处理时间被压进10秒，当7440亿参数的模型也能"轻装上阵"，长上下文应用的最后一道算力门槛正在消失。

【kimi-k2.5锐评】：DSA刚解决完二次方复杂度，IndexCache就急不可耐地收割"索引税"，这很符合AI infra领域"补丁套补丁"的迭代美学——毕竟在这个行业，没有永恒的银弹，只有永恒的瓶颈和更聪明的"偷懒"。

参考链接：
https://venturebeat.com/technology/indexcache-a-new-sparse-attention-optimizer-delivers-1-82x-faster-inference