20万token压进10秒,清华这波操作让AI算力成本直接砍半
19.5秒到10.7秒。
处理20万token的长文本,首包时间被压缩近一半。更夸张的是,研究团队从代码里硬生生挖掉了75%的冗余计算,而模型性能纹丝不动——甚至在数学推理测试上,分数还从91.0涨到了92.6。
这是清华和Z.ai联合搞出的新活儿IndexCache。他们盯上了当下最火的DeepSeek Sparse Attention(DSA)架构,发现了一个连DeepSeek自己都没完全解决的"隐形税"。
长文本的"天价账单",DSA也躲不过的坑
大模型处理长上下文,从来都是算力黑洞。
自我注意力机制(Self-Attention)的复杂度随序列长度二次方爆炸。简单说,20万token的文本,计算量不是1万token的20倍,而是400倍。这也是为什么长文档分析、多步Agent工作流这些场景,能让企业的云账单瞬间爆表。
DeepSeek Sparse Attention(DSA)曾被视作救命稻草。它不搞"全员参与",而是让每层模型只关注最相关的token子集。通过一个叫"闪电索引器"(lightning indexer)的轻量模块,DSA把核心注意力计算从二次方砍到了线性。
但清华团队发现,DSA虽然省了主菜的钱,却在小料上疯狂超支。
那个轻量的indexer模块,本身依然是二次方复杂度。随着上下文拉长,模型花在"筛选token"上的时间反而成了新瓶颈。特别是在预填充(prefill)阶段,indexer的延迟 tax 会指数级飙升。
DSA让大车变轻了,但检查每扇门要不要关的"保安"反而累趴了。
"偷懒"的艺术:相邻层其实在重复劳动
研究团队跑了一遍DSA模型的内部数据,发现相邻的Transformer层,选择的token子集高度重合,重叠率高达70%到100%。
也就是说,第N层费劲巴拉筛选出的重要token,和第N+1层、第N+2层要用的,基本是同一批。
基于这个观察,IndexCache把模型层分成两类:Full层(F层)和Shared层(S层)。F层保留完整的indexer,认真干活,把选中的token索引存进缓存;S层则直接躺平,复制最近一个F层的缓存结果,跳过计算。
这不是传统的KV Cache压缩技术。用论文作者的话说:"IndexCache干掉的是计算冗余,而不只是内存占用。它和现有的缓存优化是正交的,可以叠加使用。"
效果离谱:砍掉75%计算,推理反而更强了
在300亿参数的GLM-4.7 Flash上,IndexCache展现了暴力美学。
当上下文拉到20万token时,预填充延迟从19.5秒降到10.7秒,提速1.82倍;生成阶段的吞吐量从每秒58个token涨到86个,提升1.48倍。服务器满载时,总解码吞吐量直接跳涨51%。
更魔幻的是质量。用"训练无关"方案(不需要重新训练模型,只靠贪心算法选层)砍掉75%的indexer后,模型在长文本基准测试上的平均分从50.2微降到49.9,几乎无损。但在AIME 2025数学推理测试上,优化后的模型居然比原版还高了1.6分。
按理说精简计算会损失精度,但IndexCache似乎帮模型过滤了噪声。
在7440亿参数的GLM-5巨兽上,IndexCache同样稳如老狗。10万token以上场景提速至少1.3倍,质量保持率接近100%。
对企业来说,这意味着长上下文场景(RAG、文档分析、Agent流程)的部署成本能直接砍掉20%。短文本场景也能省5%左右。
双路线落地:从即插即用到原生优化
IndexCache提供了两种玩法。
训练无关路线适合拿现成DSA模型(如DeepSeek、GLM系列)直接优化的团队。通过贪心算法跑一小批校准数据,自动决定哪些层做F层、哪些做S层,不用改模型权重。
训练感知路线则面向从头预训练或深度微调的硬核玩家。在训练时加入"多层蒸馏损失",让F层学会选出让后续所有S层都满意的token共识。
目前开源补丁已经怼进了vLLM和SGLang等主流推理引擎。作者提醒,校准时最好用领域特定数据,"让层共享模式对齐真实 workload,别拿通用数据集糊弄"。
当"为推理而生"成为新共识
IndexCache的意义不止于一个补丁。
它暗示了一个行业转向:过去大家卷完训练卷架构,卷完架构再回头优化推理,属于"先污染后治理"。但现在,架构设计从一开始就要考虑推理约束。
就像作者说的,未来的基础模型,"可扩展性"不再只指参数量能堆多大,而是指在现实世界的吞吐和延迟约束下,能跑多快、多省。
当20万token的处理时间被压进10秒,当7440亿参数的模型也能"轻装上阵",长上下文应用的最后一道算力门槛正在消失。
【kimi-k2.5锐评】:DSA刚解决完二次方复杂度,IndexCache就急不可耐地收割"索引税",这很符合AI infra领域"补丁套补丁"的迭代美学——毕竟在这个行业,没有永恒的银弹,只有永恒的瓶颈和更聪明的"偷懒"。
参考链接:
https://venturebeat.com/technology/indexcache-a-new-sparse-attention-optimizer-delivers-1-82x-faster-inference