大模型推理太贵、太慢,这事儿终于被英伟达拿捏了。

就在大家还在为 DeepSeek-R1 的推理能力惊叹时,英伟达的研究人员悄悄扔出了一枚“深水炸弹”。

他们搞出了一种叫 动态内存稀疏化(DMS) 的技术,能把大模型推理时的内存成本最高砍掉 8 倍。

最狠的是,这不仅仅是省钱,模型的智商不仅没掉,反而变高了

说实话,这有点违背常识。通常我们压缩数据,必然要损失精度,但英伟达这次的操作,确实有点东西。

推理的“阿喀琉斯之踵”

AI配图

先搞清楚他们在解决什么问题。

现在的 LLM(大语言模型)之所以聪明,是因为它们学会了“慢思考”。也就是我们常说的 思维链——在给出最终答案前,模型会在脑子里先写一堆推理步骤。

但这有个巨大的副作用:越聪明,越吃内存

随着推理步骤变多,模型会产生一种叫 KV 缓存 的临时数据。这玩意儿就像大脑的“工作记忆”,推理链越长,这个缓存就越大,而且增长是线性的。

对于搞工程的人来说,这简直是噩梦。

AI配图

GPU 显存很快就爆了,硬件不得不花大量时间去从内存里读数据,而不是真正去“计算”。结果就是:系统变慢、延迟飙升,甚至直接崩溃

英伟达的高级深度学习工程师 Piotr Nawrot 说得很直白:

“问题不在于你有多少硬件,而在于同样的成本下,你的基础设施是能处理 100 个推理线程,还是 800 个。”

这根本不是技术问题,这是真金白银的经济账

教模型学会“遗忘”

以前人们怎么解决这个问题?

大部分方法都很“粗暴”。比如用个“滑动窗口”,只保留最新的 Token,把旧的直接删了。

这确实省内存,但副作用明显:模型容易“失忆”。有些关键信息可能就在被删掉的那部分里,一旦丢了,模型智商就直线下降。

还有的方案是把不用的数据挪到慢速内存里,但这又会导致延迟,让实时应用变得卡顿。

英伟达的 DMS 换了个思路:它不搞“一刀切”,而是教模型学会“智能遗忘”。

它不预设规则,而是通过训练,让模型自己判断:哪些 Token 是未来的推理必须的,哪些是可以扔掉的垃圾。

Nawrot 强调:

“它不仅仅是猜测重要性,它学习的是一种能明确保留模型最终输出分布的策略。”

有意思的是,这不需要你从头训练模型。

DMS 是把现成的模型(比如 Llama 3 或 Qwen 3)“改造”一下。它利用模型注意力层里现有的神经元,让它们输出一个“保留”或“驱逐”的信号。

更绝的是,这个过程甚至不需要动模型原本的权重,有点像做 LoRA 微调。

Nawrot 说了,像 Qwen3-8B 这种企业级模型,在单张 DGX H100 上几个小时就能改造完成

给记忆加个“缓冲期”

DMS 里有个设计,我个人觉得特别巧妙,叫 “延迟驱逐”

如果直接把一个 Token 删了,其实很冒险。也许模型下一秒就需要用到它的一点残留信息。

DMS 的做法是:先给这个 Token 贴个“待删除”的标签,但别急着删,让它再在内存里待一小会儿(比如几百步)。

这就像是给记忆加了个缓冲期

在这段时间里,模型可以把这个 Token 里还有用的信息“榨干”,融合到当前的上下文里,然后再彻底删除。

“‘延迟驱逐’机制至关重要,因为并非所有 Token 都是‘重要’(永远保留)或‘无用’(立即删除)的。很多 Token 处于中间状态——它们携带一些信息,但并不足以 justify 占据一整个内存槽位,” Nawrot 解释道。

通过这种手段,模型能在内存里腾出大量空间,同时又不丢失关键信息。

反转:压缩反而变强了?

数据是不会骗人的。

研究人员把 DMS 用在了 Qwen-R1 系列(从 DeepSeek R1 蒸馏而来)和 Llama 3.2 上,测试了 AIME 24(数学)、GPQA Diamond(科学)和 LiveCodeBench(编程)这些硬核 benchmark。

结果很震撼:DMS 重新定义了成本与性能的平衡点。

在 AIME 24 数学基准上,在同样的内存带宽预算下,搭载了 DMS 的 Qwen-R1 32B 模型,分数比标准模型高了整整 12.0 分。

为什么?

因为内存省下来了,模型就能**“想”得更深、更广**。同样的预算,普通模型可能只能推理两步,DMS 模型能推理十步。

更反直觉的是“大海捞针”测试。

这玩意儿是测模型在长文档里找关键信息的能力。按理说,压缩缓存应该损害这种能力才对。

但 DMS 变体居然反超了标准模型

道理很简单:主动管理内存,比被动堆积噪音要高效得多。模型的上下文更干净了,自然找得准。

对企业来说,这意味着什么?

在 Qwen3-8B 的测试中,DMS 在保持精度不变的情况下,吞吐量提升了最高 5 倍

换句话讲,一台服务器能顶以前五台用,这省下的可全是电费和显卡钱。

未来的战争

AI配图

英伟达已经把 DMS 放进了 KVPress 库里。

想上手?门槛低得惊人。

“‘最小可行基础设施’就是标准的 Hugging Face 管道——不需要自定义 CUDA 内核,” Nawrot 说。

而且,DMS 完全兼容 DeepSeek 模型用的 MLA(多头潜在注意力)架构。这意味着,如果把 DeepSeek 的架构和英伟达的 DMS 结合,效率可能会炸裂。

随着企业从简单的聊天机器人转向需要复杂推理的智能体系统,推理成本已经成了最大的拦路虎。

英伟达这次算是把路铺平了。

Nawrot 最后说了一句:

“我们才刚刚触及可能性的皮毛,我们预计推理时的扩展将进一步演变。”

看来,大模型的“效率战争”,才刚刚开始。

参考链接:
https://venturebeat.com/orchestration/nvidias-new-technique-cuts-llm-reasoning-costs-by-8x-without-losing-accuracy