8B模型吊打16B,速度还快3倍:扩散模型终于向GPT宣战了

一个token一个token地蹦,可能是AI最大的性能瓶颈。

过去两年,自回归模型(AR)像GPT、Claude、Qwen统治了整个世界。它们写诗、写代码、做推理,但有个致命的"洁癖":必须从左到右,一个字一个字往外吐

这种"强迫症"让GPU算力大量闲置。就像让一百个工人排成队,每次只能递一块砖。

AI配图

而扩散模型(Diffusion)在图像领域早就证明了"并行生成"的威力——Midjourney不是一笔笔画,而是一次性渲染整幅画。但在文本领域,扩散模型一直是个笑话。质量拉胯,逻辑断裂,像个喝醉酒的打字机。

直到现在。

"自己打自己脸"的技术难题

扩散语言模型(DLM)的理论优势太诱人了:一次性生成一整段话,解码速度理论上能快几倍。但实操中,它们连AR模型的车尾都看不见。

问题出在哪?

研究团队提出了一个扎心的概念:内省一致性(Introspective Consistency)

AR模型有个特点:它同意自己生成的内容。前面生成的token,后面会"认可"并在此基础上继续。

但传统的DLMs就像个健忘的作家。第一步写了个"因为",第三步却写了个"但是",前后矛盾。它没有"回头看"的机制,只是蒙眼狂奔。

这种"自说自话"的缺陷,让扩散模型在逻辑密集型任务(比如数学证明、代码编写)上彻底崩盘。

边写边检查的"内省"机制

来自Introspective-Diffusion团队的解法很巧妙:不再区分生成和验证,而是把两者塞进同一个前向传播

他们管这叫Introspective Strided Decoding(ISD,内省步进解码)

简单来说,模型每步生成N个新token的同时,会回头检查之前生成的token是否靠谱。用概率分布p(锚点分布)去验证分布q(新生成),通过一个**min(1, p(x)/q(x))**的接受准则,保证输出严格符合AR模型的分布。

这就像是让模型在"创作"和"审稿"之间快速切换。

更狠的是,他们还搞了个Gated LoRA适配器。在需要生成(MASK位置)时激活额外参数,在验证(Clean位置)时用基础权重。这样能做到**bit-for-bit(比特级无损)**加速——输出和原始AR模型完全一致,但速度快了2.9到4.1倍。

AI配图

说实话,这招有点像作弊:既保留了AR模型的智商,又偷走了扩散模型的速度。

数据不会说谎:8B参数的逆袭

看看 benchmark 上的血淋淋的数据:

I-DLM-8B(只有80亿参数)vs LLaDA-2.1-mini(160亿参数):

  • AIME-24数学竞赛高出**+26分**
  • LiveCodeBench-v6代码测试高出**+15分**
  • 参数量只有对方的一半
  • 吞吐量快了2.9-4.1倍

这是历史上第一次,扩散语言模型在质量上追平了同规模的AR模型,同时把速度拉满。

在15个评测基准上,I-DLM横扫了所有非AR架构的模型。它甚至不需要从头训练——团队直接拿预训练的Qwen模型,通过"内省一致性训练"(因果注意力+logit偏移+全掩码目标)就转化成功了。

这意味着什么? 你手里现成的GPT、Llama、Qwen,理论上都能被改造成这种"并行生成"模式。

真正的赢家是现有模型?

有意思的是,这项技术的颠覆性不在于"造了个新模型",而在于**"改造旧模型"**。

I-DLM没有从零训练一个扩散模型,而是把已有的AR模型"蒸馏"成扩散形态。通过4.5B token的数据,8张H100,跑两个epoch,就能把Qwen变成"内省模式"。

而且部署异常简单。因为使用了严格的因果注意力,I-DLM能直接插进SGLang推理框架,不需要任何自定义基础设施。Paged KV缓存、CUDA图捕获、连续批处理——这些AR模型的优化红利,它全都能吃。

个人觉得,这比那些从头训练的新架构更可怕。它降低了 adoption 门槛,让现有生态能无缝升级。

当AI不再"一个字一个字蹦"

回到那个核心问题:如果AI生成文本不再是一个token一个token地顺序输出,而是像人类写作一样"先打草稿再修改",甚至"多线程并行构思",我们的交互方式会变成什么样?

现在的ChatGPT像是个结巴但严谨的学者。未来的I-DLM可能更像一个思维跳跃但高效的创作者。

当然,这项技术还有局限。 它目前主要在"内存受限"的解码场景下表现最佳,对于短文本生成的优势不明显。而且那个"无损加速"需要额外的LoRA计算,虽然 overhead 只有1.12倍,但终究是成本。

不过,当8B模型能在数学和代码上碾压16B对手,同时速度快3倍时,"更大即更好"的暴力美学可能真的要过时了

扩散模型在图像领域干掉了GAN,在文本领域,它现在正站在AR模型的城门前。

AI配图

问题是:OpenAI和Anthropic,你们打算什么时候跟进?

【锐评】:这不是简单的架构优化,而是把"并行生成"的圣杯真正递到了手里,AR模型的护城河第一次出现了裂缝。

参考链接:
https://introspective-diffusion.github.io/