Diffusion 模型逆袭：首个能打平 AR 的文本生成模型 I-DLM 来了

8B模型吊打16B，速度还快3倍：扩散模型终于向GPT宣战了

一个token一个token地蹦，可能是AI最大的性能瓶颈。

过去两年，自回归模型（AR）像GPT、Claude、Qwen统治了整个世界。它们写诗、写代码、做推理，但有个致命的"洁癖"：必须从左到右，一个字一个字往外吐。

这种"强迫症"让GPU算力大量闲置。就像让一百个工人排成队，每次只能递一块砖。

AI配图

而扩散模型（Diffusion）在图像领域早就证明了"并行生成"的威力——Midjourney不是一笔笔画，而是一次性渲染整幅画。但在文本领域，扩散模型一直是个笑话。质量拉胯，逻辑断裂，像个喝醉酒的打字机。

直到现在。

扩散语言模型（DLM）的理论优势太诱人了：一次性生成一整段话，解码速度理论上能快几倍。但实操中，它们连AR模型的车尾都看不见。

问题出在哪？

研究团队提出了一个扎心的概念：内省一致性（Introspective Consistency）。

AR模型有个特点：它同意自己生成的内容。前面生成的token，后面会"认可"并在此基础上继续。

但传统的DLMs就像个健忘的作家。第一步写了个"因为"，第三步却写了个"但是"，前后矛盾。它没有"回头看"的机制，只是蒙眼狂奔。

这种"自说自话"的缺陷，让扩散模型在逻辑密集型任务（比如数学证明、代码编写）上彻底崩盘。

来自Introspective-Diffusion团队的解法很巧妙：不再区分生成和验证，而是把两者塞进同一个前向传播。

他们管这叫Introspective Strided Decoding（ISD，内省步进解码）。

简单来说，模型每步生成N个新token的同时，会回头检查之前生成的token是否靠谱。用概率分布p（锚点分布）去验证分布q（新生成），通过一个**min(1, p(x)/q(x))**的接受准则，保证输出严格符合AR模型的分布。

这就像是让模型在"创作"和"审稿"之间快速切换。

更狠的是，他们还搞了个Gated LoRA适配器。在需要生成（MASK位置）时激活额外参数，在验证（Clean位置）时用基础权重。这样能做到**bit-for-bit（比特级无损）**加速——输出和原始AR模型完全一致，但速度快了2.9到4.1倍。

AI配图

说实话，这招有点像作弊：既保留了AR模型的智商，又偷走了扩散模型的速度。

看看 benchmark 上的血淋淋的数据：

I-DLM-8B（只有80亿参数）vs LLaDA-2.1-mini（160亿参数）：

这是历史上第一次，扩散语言模型在质量上追平了同规模的AR模型，同时把速度拉满。

在15个评测基准上，I-DLM横扫了所有非AR架构的模型。它甚至不需要从头训练——团队直接拿预训练的Qwen模型，通过"内省一致性训练"（因果注意力+logit偏移+全掩码目标）就转化成功了。

这意味着什么？ 你手里现成的GPT、Llama、Qwen，理论上都能被改造成这种"并行生成"模式。

有意思的是，这项技术的颠覆性不在于"造了个新模型"，而在于**"改造旧模型"**。

I-DLM没有从零训练一个扩散模型，而是把已有的AR模型"蒸馏"成扩散形态。通过4.5B token的数据，8张H100，跑两个epoch，就能把Qwen变成"内省模式"。

而且部署异常简单。因为使用了严格的因果注意力，I-DLM能直接插进SGLang推理框架，不需要任何自定义基础设施。Paged KV缓存、CUDA图捕获、连续批处理——这些AR模型的优化红利，它全都能吃。

个人觉得，这比那些从头训练的新架构更可怕。它降低了 adoption 门槛，让现有生态能无缝升级。

回到那个核心问题：如果AI生成文本不再是一个token一个token地顺序输出，而是像人类写作一样"先打草稿再修改"，甚至"多线程并行构思"，我们的交互方式会变成什么样？

现在的ChatGPT像是个结巴但严谨的学者。未来的I-DLM可能更像一个思维跳跃但高效的创作者。

当然，这项技术还有局限。 它目前主要在"内存受限"的解码场景下表现最佳，对于短文本生成的优势不明显。而且那个"无损加速"需要额外的LoRA计算，虽然 overhead 只有1.12倍，但终究是成本。

不过，当8B模型能在数学和代码上碾压16B对手，同时速度快3倍时，"更大即更好"的暴力美学可能真的要过时了。

扩散模型在图像领域干掉了GAN，在文本领域，它现在正站在AR模型的城门前。

AI配图

问题是：OpenAI和Anthropic，你们打算什么时候跟进？

【锐评】：这不是简单的架构优化，而是把"并行生成"的圣杯真正递到了手里，AR模型的护城河第一次出现了裂缝。

参考链接：
https://introspective-diffusion.github.io/