英伟达这招太狠了：推理成本暴降 8 倍，DeepSeek 们还能稳坐钓鱼台吗？

大模型推理太贵、太慢，这事儿终于被英伟达拿捏了。

就在大家还在为 DeepSeek-R1 的推理能力惊叹时，英伟达的研究人员悄悄扔出了一枚“深水炸弹”。

他们搞出了一种叫 动态内存稀疏化（DMS） 的技术，能把大模型推理时的内存成本最高砍掉 8 倍。

最狠的是，这不仅仅是省钱，模型的智商不仅没掉，反而变高了。

说实话，这有点违背常识。通常我们压缩数据，必然要损失精度，但英伟达这次的操作，确实有点东西。

推理的“阿喀琉斯之踵”

AI配图

先搞清楚他们在解决什么问题。

现在的 LLM（大语言模型）之所以聪明，是因为它们学会了“慢思考”。也就是我们常说的 思维链——在给出最终答案前，模型会在脑子里先写一堆推理步骤。

但这有个巨大的副作用：越聪明，越吃内存。

随着推理步骤变多，模型会产生一种叫 KV 缓存 的临时数据。这玩意儿就像大脑的“工作记忆”，推理链越长，这个缓存就越大，而且增长是线性的。

对于搞工程的人来说，这简直是噩梦。

AI配图

GPU 显存很快就爆了，硬件不得不花大量时间去从内存里读数据，而不是真正去“计算”。结果就是：系统变慢、延迟飙升，甚至直接崩溃。

英伟达的高级深度学习工程师 Piotr Nawrot 说得很直白：

“问题不在于你有多少硬件，而在于同样的成本下，你的基础设施是能处理 100 个推理线程，还是 800 个。”

这根本不是技术问题，这是真金白银的经济账。

教模型学会“遗忘”

以前人们怎么解决这个问题？

大部分方法都很“粗暴”。比如用个“滑动窗口”，只保留最新的 Token，把旧的直接删了。

这确实省内存，但副作用明显：模型容易“失忆”。有些关键信息可能就在被删掉的那部分里，一旦丢了，模型智商就直线下降。

还有的方案是把不用的数据挪到慢速内存里，但这又会导致延迟，让实时应用变得卡顿。

英伟达的 DMS 换了个思路：它不搞“一刀切”，而是教模型学会“智能遗忘”。

它不预设规则，而是通过训练，让模型自己判断：哪些 Token 是未来的推理必须的，哪些是可以扔掉的垃圾。

Nawrot 强调：

“它不仅仅是猜测重要性，它学习的是一种能明确保留模型最终输出分布的策略。”

有意思的是，这不需要你从头训练模型。

DMS 是把现成的模型（比如 Llama 3 或 Qwen 3）“改造”一下。它利用模型注意力层里现有的神经元，让它们输出一个“保留”或“驱逐”的信号。

更绝的是，这个过程甚至不需要动模型原本的权重，有点像做 LoRA 微调。

Nawrot 说了，像 Qwen3-8B 这种企业级模型，在单张 DGX H100 上几个小时就能改造完成。

给记忆加个“缓冲期”

DMS 里有个设计，我个人觉得特别巧妙，叫 “延迟驱逐”。

如果直接把一个 Token 删了，其实很冒险。也许模型下一秒就需要用到它的一点残留信息。

DMS 的做法是：先给这个 Token 贴个“待删除”的标签，但别急着删，让它再在内存里待一小会儿（比如几百步）。

这就像是给记忆加了个缓冲期。

在这段时间里，模型可以把这个 Token 里还有用的信息“榨干”，融合到当前的上下文里，然后再彻底删除。

“‘延迟驱逐’机制至关重要，因为并非所有 Token 都是‘重要’（永远保留）或‘无用’（立即删除）的。很多 Token 处于中间状态——它们携带一些信息，但并不足以 justify 占据一整个内存槽位，” Nawrot 解释道。

通过这种手段，模型能在内存里腾出大量空间，同时又不丢失关键信息。

反转：压缩反而变强了？

数据是不会骗人的。

研究人员把 DMS 用在了 Qwen-R1 系列（从 DeepSeek R1 蒸馏而来）和 Llama 3.2 上，测试了 AIME 24（数学）、GPQA Diamond（科学）和 LiveCodeBench（编程）这些硬核 benchmark。

结果很震撼：DMS 重新定义了成本与性能的平衡点。

在 AIME 24 数学基准上，在同样的内存带宽预算下，搭载了 DMS 的 Qwen-R1 32B 模型，分数比标准模型高了整整 12.0 分。

为什么？

因为内存省下来了，模型就能**“想”得更深、更广**。同样的预算，普通模型可能只能推理两步，DMS 模型能推理十步。

更反直觉的是“大海捞针”测试。

这玩意儿是测模型在长文档里找关键信息的能力。按理说，压缩缓存应该损害这种能力才对。

但 DMS 变体居然反超了标准模型。

道理很简单：主动管理内存，比被动堆积噪音要高效得多。模型的上下文更干净了，自然找得准。

对企业来说，这意味着什么？

在 Qwen3-8B 的测试中，DMS 在保持精度不变的情况下，吞吐量提升了最高 5 倍。

换句话讲，一台服务器能顶以前五台用，这省下的可全是电费和显卡钱。

未来的战争

AI配图

英伟达已经把 DMS 放进了 KVPress 库里。

想上手？门槛低得惊人。

“‘最小可行基础设施’就是标准的 Hugging Face 管道——不需要自定义 CUDA 内核，” Nawrot 说。

而且，DMS 完全兼容 DeepSeek 模型用的 MLA（多头潜在注意力）架构。这意味着，如果把 DeepSeek 的架构和英伟达的 DMS 结合，效率可能会炸裂。

随着企业从简单的聊天机器人转向需要复杂推理的智能体系统，推理成本已经成了最大的拦路虎。

英伟达这次算是把路铺平了。

Nawrot 最后说了一句：

“我们才刚刚触及可能性的皮毛，我们预计推理时的扩展将进一步演变。”

看来，大模型的“效率战争”，才刚刚开始。

参考链接：
https://venturebeat.com/orchestration/nvidias-new-technique-cuts-llm-reasoning-costs-by-8x-without-losing-accuracy