扩散语言模型 14 倍提速！解决 KV Cache 和步数问题，这篇论文把大模型卷到了新维度

14.5 倍。

这不是某个小作坊的夸张宣传，而是 AI 独角兽 Together.ai 刚刚放出的实测数据。

就在大家还在为 GPT-5 的参数量猜谜时，一群工程师悄悄换了个赛道：

他们不追求把模型做得更大，而是试图把现有的模型“榨干”。

这篇名为《Consistency diffusion language models》的博客，展示了一种名为 CDLM 的新技术，让模型的推理速度最高狂飙 14.5 倍，而且质量几乎不掉。

说实话，这比单纯堆参数刺激多了。

扩散模型：潜力股，也是“吞金兽”

先说背景。

现在的大语言模型（LLM），主流都是自回归（AR）的。通俗点说，就像我们写字，写完一个字再想下一个，按部就班，串行生成。

这就导致了一个问题：慢。

于是，扩散语言模型（DLMs）横空出世。它不像 AR 模型那样一个词一个词地蹦，而是像修复老照片一样，从一堆乱码开始，一步步迭代“去噪”，最后生成清晰的文本。

理论上，如果这玩意儿能并行生成，效率应该爆表。

但现实很骨感。标准的 DLM 有两个致命的“吞金”属性：

第一，它用双向注意力，每次去噪都要重新计算整个上下文，显卡显存里的 KV Cache 根本用不上，算力全浪费在重复计算上了。

第二，为了保证质量，它需要很多个细化步骤，步数一少，生成的文本就拉胯。

这就好比你有辆法拉利，但只能在市区堵车，油门踩到底也跑不起来。

既然改不了路，那就换种开法

CDLM 的思路很清奇：既然标准 DLM 这么费劲，那就别硬改了，直接在后训练阶段给它“洗脑”。

他们搞了一套组合拳，核心就两点：块因果掩码 和 一致性蒸馏。

简单说，他们把模型处理文本的方式改了。不再是每次都盯着全文看，而是把文本切成一个个“块”。模型只关注当前的块和之前已经完成的块。

这有什么用？

太有用了。这意味着它可以复用 KV Cache 了！那些以前被浪费的算力，现在能被充分利用起来。

不仅如此，他们还设计了一个student模型，去模仿teacher模型的生成轨迹。

通过三个目标函数的联合训练（蒸馏损失、一致性损失、辅助去噪损失），强行让模型学会在极少的步数内，把一块文本一次性搞定。

这就像是逼着老司机学会在弯道漂移，少打方向盘，还得跑得快。

数据不讲谎：速度就是正义

光说不练假把式，我们看实测。

他们拿 Dream-7B-Instruct 模型做了实验，结果确实有点夸张。

在数学任务 GSM8K-CoT 上，延迟降低了 11.2 倍；在编程任务 MBPP-Instruct 上，延迟更是降低了 14.5 倍。

这意味着什么？

以前你要等大模型写一段代码，可能需要喝杯咖啡的时间；现在，咖啡还没泡好，代码已经写好了。

而且，这种提速不是靠牺牲质量换来的。在大多数任务上，准确度几乎没有变化，吞吐量（Tokens Per Second）还更高了。

个人觉得，这比单纯宣布“我们有了一个千亿参数模型”要有价值得多。

毕竟，对于普通用户和开发者来说，快，就是正义。

想要快没那么简单，还得“练内功”

这里有个很有意思的细节，值得单独拿出来说说。

很多人可能会想：既然要快，我直接把标准 DLM 的步数砍掉不就行了吗？

不行。这帮人专门做了个消融实验。

结果显示，如果你简单粗暴地减少步数，模型的准确率会断崖式下跌。

这说明多步细化不仅仅是“走得慢”，它是在思考。CDLM 之所以能快，是因为它通过特殊的训练，把这种“思考”压缩到了更少的步骤里。

稳定的多步细化，不是免费的午餐，是靠训练“喂”出来的。

找到了硬件的“甜点区”

最后，我们从硬件视角看一眼。

这篇博客还分析了算术强度。

AR 模型在批量小的时候，往往受限于内存带宽（显卡显存读写速度跟不上）；而传统的 DLM 则是计算密集型，算力拉满但可能存在浪费。

CDLM 这种块级扩散模型，正好卡在中间。

它利用块内并行来摊薄内存访问成本，同时又不像传统 DLM 那么吃算力。

这就像是在内存墙和计算墙之间，找到了一条刚刚好的缝隙钻了过去。

对于我们在本地跑模型、或者小批量推理的场景，这简直是“黄金平衡点”。

不换显卡，也能快得飞起

看到这里，我想起博客下面的一条热门评论：

“我希望能有更多这种加速的研究，而不是一味地造更大的模型。”

这话简直说到我心坎里了。

与其追求那些遥不可及的“超级智能”，不如先把我们手里的工具变得更锋利。

CDLM 告诉我们，只要架构设计得当，训练策略跟上，不换显卡，也能让大模型快得飞起。

如果这项技术能迅速普及到开源社区，比如那些 .gguf 格式的量化模型上，那咱们手里的“老旧显卡”或许真的能迎来第二春。

毕竟，好用、跑得快，才是硬道理。

参考链接：
https://www.together.ai/blog/consistency-diffusion-language-models