如果你还在为大模型跑长文本时显存爆炸而头秃,MIT这帮人可能刚给你找到了解药。

内存降低****50倍

MIT的研究人员搞出了一种叫“Attention Matching”的技术,直接把大模型的KV cache(键值缓存)压缩了50倍,而且——几乎不掉精度

更离谱的是,以前要达到这种效果,得拿GPU烧上好几个小时;现在?几秒钟搞定

说实话,这对于企业级AI应用来说,可能是一个改变游戏规则的时刻。

显存吃紧,大模型的“健忘症”有多尴尬

咱们先别急着聊技术,先看看痛点。

大模型很聪明,但也很“健忘”,或者说,它的“记性”太贵了。当你扔给它一份几万字的合同,或者让它处理一个漫长的多轮对话,模型需要在内存里存下每一个token的“键值对”(KV cache)。

image

这就是它的“工作记忆”。

问题是,这玩意儿太吃资源了。对话越长,内存膨胀得越厉害。论文合著者Adam Zweiger说得很直白:“在实际应用中,KV cache是服务超长上下文模型的最大瓶颈。”

它不仅限制了并发,逼着你把批次变小,甚至还得把数据折腾到CPU内存里去倒腾。

现在的解决方案都很“将就”。

要么直接把旧对话扔了(这就好比为了省笔记本空间,把前几章的剧情删了);要么搞个“总结摘要”,把之前的对话压缩成一段小作文。

image

老实讲,这种“总结法”在业内很流行,但真的很烂。它是有损压缩,很多细节在这个过程里就丢了。

之前有个叫“Cartridges”的方法,压缩效果不错,但它是靠“训练”来压缩的。想压缩一个上下文?先让GPU跑几个小时。这要是放在实时客服里,客户早跑了。

不靠硬算靠“巧劲”,代数搞定AI记忆

MIT这个Attention Matching,到底神在哪?

简单说,它不搞那种慢吞吞的梯度下降训练,而是用了一套代数技巧

研究人员发现,想要让压缩后的记忆表现得跟原来一样,只要保住两个东西:一个是“注意力输出”(模型查到了啥),一个是“注意力质量”(权重分布)。

只要这两个数对得上,模型根本不在乎你后台是不是删减了数据。

具体怎么做的?

它会先生成一组“参考查询”,假装在问模型问题。如果压缩后的记忆能准确回答这些“假问题”,那大概率也能回答真问题。

然后,重点来了——它用最小二乘法这种基础的数学工具去拟合数值。

没有漫长的训练,没有痛苦的迭代,解个方程组就完事了。

这就是为什么它能比那些基于优化的方法快几个数量级。

实测现场:传统方法直接“失忆”

光说不练假把式。研究人员拿Llama 3.1和Qwen-3做了个“压力测试”。

测试对象是LongHealth——一个包含6万token的超密集医疗记录数据集。

结果很有意思,也有点残酷。

当面对这种高密度信息时,业界常用的“文本总结法”直接崩了。模型的准确率跌到了“无语境基线”水平。

啥意思?就是AI表现得跟“没看过这篇文档”一样。辛苦总结半天,全白费了。

而Attention Matching呢?在50倍压缩率下,它依然稳得一批,准确率几乎没掉。

更有意思的是那个“在线压缩”实验。

研究人员给模型设了个死限:内存只能这么点。满了怎么办?用Attention Matching瞬间压缩一半,继续跑。

结果模型在解题过程中,连续撞墙、连续压缩了6次,最后居然还是把数学题解出来了。这就好比你逼着一个人一边跑马拉松一边扔包袱,他最后还是跑到了终点。

别高兴太早,闭源模型吃不到这只螃蟹

看到这儿,你可能觉得这就完事了?

并没有。这项技术目前最大的槽点在于——门槛

虽然它不需要训练,但它需要访问模型的权重。这意味着如果你是OpenAI或者Anthropic的API用户,这技术跟你没半毛钱关系。

你没法在GPT-4的API上搞这个操作,除非模型厂商自己开放接口。

而且,虽然50倍压缩很香,但如果你非要追求极致的100倍压缩,那个慢吞吞的“Cartridges”方法其实效果更好。Attention Matching在极端压缩下,还是会有信息损耗。

image

另外,把它集成到现有的推理引擎里也没那么简单。现在的推理服务都在搞什么前缀缓存、变长内存打包,想把这个“压缩插件”无缝插进去,还得工程师们掉几根头发。

不过,Zweiger预测了一个趋势:未来的压缩技术,会从企业自己搞,变成模型厂商直接卖服务。

就像OpenAI现在搞的那个黑盒压缩端点一样。

这对于搞长上下文RAG、智能体Agent的开发者来说,绝对是个值得盯紧的方向


【glm-5锐评】:MIT这波操作属实把“降维打击”玩明白了,用高中数学解开了大模型的死结,但闭源API的高墙,恐怕才是阻碍这项技术普及的最大拦路虎。

参考链接:
https://venturebeat.com/orchestration/new-kv-cache-compaction-technique-cuts-llm-memory-50x-without-accuracy-loss