14.5 倍。
这不是某个小作坊的夸张宣传,而是 AI 独角兽 Together.ai 刚刚放出的实测数据。
就在大家还在为 GPT-5 的参数量猜谜时,一群工程师悄悄换了个赛道:
他们不追求把模型做得更大,而是试图把现有的模型“榨干”。
这篇名为《Consistency diffusion language models》的博客,展示了一种名为 CDLM 的新技术,让模型的推理速度最高狂飙 14.5 倍,而且质量几乎不掉。
说实话,这比单纯堆参数刺激多了。
扩散模型:潜力股,也是“吞金兽”
先说背景。
现在的大语言模型(LLM),主流都是自回归(AR)的。通俗点说,就像我们写字,写完一个字再想下一个,按部就班,串行生成。
这就导致了一个问题:慢。
于是,扩散语言模型(DLMs)横空出世。它不像 AR 模型那样一个词一个词地蹦,而是像修复老照片一样,从一堆乱码开始,一步步迭代“去噪”,最后生成清晰的文本。
理论上,如果这玩意儿能并行生成,效率应该爆表。
但现实很骨感。标准的 DLM 有两个致命的“吞金”属性:
第一,它用双向注意力,每次去噪都要重新计算整个上下文,显卡显存里的 KV Cache 根本用不上,算力全浪费在重复计算上了。
第二,为了保证质量,它需要很多个细化步骤,步数一少,生成的文本就拉胯。
这就好比你有辆法拉利,但只能在市区堵车,油门踩到底也跑不起来。
既然改不了路,那就换种开法
CDLM 的思路很清奇:既然标准 DLM 这么费劲,那就别硬改了,直接在后训练阶段给它“洗脑”。
他们搞了一套组合拳,核心就两点:块因果掩码 和 一致性蒸馏。
简单说,他们把模型处理文本的方式改了。不再是每次都盯着全文看,而是把文本切成一个个“块”。模型只关注当前的块和之前已经完成的块。
这有什么用?
太有用了。这意味着它可以复用 KV Cache 了!那些以前被浪费的算力,现在能被充分利用起来。
不仅如此,他们还设计了一个student模型,去模仿teacher模型的生成轨迹。
通过三个目标函数的联合训练(蒸馏损失、一致性损失、辅助去噪损失),强行让模型学会在极少的步数内,把一块文本一次性搞定。
这就像是逼着老司机学会在弯道漂移,少打方向盘,还得跑得快。
数据不讲谎:速度就是正义
光说不练假把式,我们看实测。
他们拿 Dream-7B-Instruct 模型做了实验,结果确实有点夸张。
在数学任务 GSM8K-CoT 上,延迟降低了 11.2 倍;在编程任务 MBPP-Instruct 上,延迟更是降低了 14.5 倍。
这意味着什么?
以前你要等大模型写一段代码,可能需要喝杯咖啡的时间;现在,咖啡还没泡好,代码已经写好了。
而且,这种提速不是靠牺牲质量换来的。在大多数任务上,准确度几乎没有变化,吞吐量(Tokens Per Second)还更高了。
个人觉得,这比单纯宣布“我们有了一个千亿参数模型”要有价值得多。
毕竟,对于普通用户和开发者来说,快,就是正义。
想要快没那么简单,还得“练内功”
这里有个很有意思的细节,值得单独拿出来说说。
很多人可能会想:既然要快,我直接把标准 DLM 的步数砍掉不就行了吗?
不行。这帮人专门做了个消融实验。
结果显示,如果你简单粗暴地减少步数,模型的准确率会断崖式下跌。
这说明多步细化不仅仅是“走得慢”,它是在思考。CDLM 之所以能快,是因为它通过特殊的训练,把这种“思考”压缩到了更少的步骤里。
稳定的多步细化,不是免费的午餐,是靠训练“喂”出来的。
找到了硬件的“甜点区”
最后,我们从硬件视角看一眼。
这篇博客还分析了算术强度。
AR 模型在批量小的时候,往往受限于内存带宽(显卡显存读写速度跟不上);而传统的 DLM 则是计算密集型,算力拉满但可能存在浪费。
CDLM 这种块级扩散模型,正好卡在中间。
它利用块内并行来摊薄内存访问成本,同时又不像传统 DLM 那么吃算力。
这就像是在内存墙和计算墙之间,找到了一条刚刚好的缝隙钻了过去。
对于我们在本地跑模型、或者小批量推理的场景,这简直是“黄金平衡点”。
不换显卡,也能快得飞起
看到这里,我想起博客下面的一条热门评论:
“我希望能有更多这种加速的研究,而不是一味地造更大的模型。”
这话简直说到我心坎里了。
与其追求那些遥不可及的“超级智能”,不如先把我们手里的工具变得更锋利。
CDLM 告诉我们,只要架构设计得当,训练策略跟上,不换显卡,也能让大模型快得飞起。
如果这项技术能迅速普及到开源社区,比如那些 .gguf 格式的量化模型上,那咱们手里的“老旧显卡”或许真的能迎来第二春。
毕竟,好用、跑得快,才是硬道理。
参考链接:
https://www.together.ai/blog/consistency-diffusion-language-models