扩散语言模型的崛起

引言

数十年来，语言建模的故事一直是从左到右、一次一个词元地书写的。从n-gram到GPT-4的自回归模型一直占据主导地位，通过预测给定所有先前词的下一个词来工作。但如果我们能以不同的方式生成文本呢？如果我们不是按顺序构建句子，而是可以并行地优化整个序列，一次看到全局呢？

本文探讨扩散语言模型的演进，从2022年的开创性基础到2025年的最先进系统。这些论文代表了从顺序、单向生成到并行、双向优化的范式转变——挑战了定义现代自然语言处理的自回归霸权。

关键演进：该领域已从小规模可控生成发展到十亿参数模型，这些模型在复杂推理任务上与自回归大语言模型相匹配，并具有针对多模态和代码生成领域的专门变体。

1. 自回归霸权及其不满

主导范式

GPT-3、LLaMA和Claude等大型语言模型的成功堪称革命性。这些模型自回归地生成文本——从左到右一次预测一个词元，每个预测都以所有先前词元为条件。在数学上，它们建模概率：

自回归因式分解

$$p_{\theta}(x) = p_{\theta}(x_1) \prod_{i=2}^{N} p_{\theta}(x_i \mid x_{1:i-1})$$

这种从左到右的分解一直是几乎所有现代大语言模型的基础。

根本性局限

但这一范式尽管在经验上取得了成功，却存在根本性的局限：

顺序生成瓶颈：词元必须一次生成一个，使得并行化不可能，推理速度缓慢
单向上下文：每个词元只能看到之前的内容，限制了全局连贯性和规划
约束困难：强制执行复杂的结构或语义约束（如语法树、JSON模式或双向推理）需要笨拙的变通方法
反转诅咒：自回归模型在需要反向处理信息的任务上表现不佳——它们可以告诉你"Tom Cruise的母亲是Mary Lee Pfeiffer"，但当被问到"Mary Lee Pfeiffer的儿子是谁？"时会失败

一个根本性问题

自回归范式真的是语言建模能力的唯一途径吗？还是它只是我们找到的第一个成功方法，具有我们已经学会绕过的根本性架构局限？

2. 扩散的进入：从图像到文字

扩散在视觉领域的成功

当自回归模型主导文本领域时，一种不同的范式在计算机视觉中取得了显著成功。扩散模型——通过迭代去噪随机噪声来生成图像——在DALL-E 2、Stable Diffusion和Midjourney中产生了惊人的结果。关键洞察：扩散模型不是顺序生成像素，而是通过多个去噪步骤并行地优化整个图像。

扩散的核心洞察

扩散模型通过两个过程工作：

前向过程：通过添加高斯噪声（对于图像）或掩蔽词元（对于文本）逐渐将干净数据破坏为噪声
反向过程：学习去噪，逐步恢复原始数据

这种双向的生成视角使得全局规划和迭代优化成为可能——这些能力用从左到右的生成很难实现。

离散挑战

但将扩散适配到文本并不简单。文本本质上是离散的——来自固定词汇表的单个词元——而扩散是为连续域设计的。突破来自离散扩散模型和掩码扩散框架。

掩码扩散突破（2021-2022）

离散文本扩散不是添加高斯噪声，而是使用掩蔽过程：逐渐用特殊的[MASK]词元替换词元，直到整个序列被掩蔽。然后模型学习在给定部分掩蔽序列的情况下预测原始词元。

离散扩散目标

训练目标变成加权交叉熵损失：

$$\mathcal{L}(\theta) = \mathbb{E}_{x_0,t,x_t} \left[ w(t) \sum_{n=1}^{N} \mathbb{1}[x_t^n = \text{MASK}] \log p_{\theta}(x_0^n \mid x_t) \right]$$

其中$w(t)$加权不同的噪声水平，通常强调更干净的序列（较小的$t$）以提高样本质量。

图1：离散扩散中的前向掩蔽过程和反向去噪

3. 先驱：Diffusion-LM（2022）

论文信息

标题：Diffusion-LM Improves Controllable Text Generation

作者：Li et al., 2022

链接：arXiv:2205.14217

核心创新

Li等人的开创性工作引入了Diffusion-LM，证明连续扩散可以用于文本生成——不是直接对离散词元操作，而是在词嵌入空间中进行扩散。这需要几项创新：

嵌入空间扩散：将词映射到连续向量，应用高斯扩散，然后舍入回离散词元
端到端训练：与扩散模型联合学习嵌入以最小化舍入误差
钳位技巧：在采样期间强制中间预测提交到特定词嵌入

基于梯度的控制

但真正的突破在于可控生成。由于扩散在连续潜变量上操作，基于梯度的控制变得自然：

Diffusion-LM中的基于梯度的控制

在每个去噪步骤，更新潜变量以最大化流畅性（扩散模型）和控制（分类器）：

$$\nabla_{x_{t-1}} \log p(x_{t-1} \mid x_t, c) = \nabla_{x_{t-1}} \log p(x_{t-1} \mid x_t) + \nabla_{x_{t-1}} \log p(c \mid x_{t-1})$$

这使得能够进行复杂的控制，如句法结构、语义内容，甚至组合多个约束——这对自回归模型来说极其困难。

结果

Diffusion-LM在细粒度控制任务（语法树、语义约束）上显示出令人印象深刻的结果，几乎将即插即用自回归方法（如PPLM）的成功率提高了一倍。但它只在小数据集上训练，仍远未达到现代大语言模型的规模。

4. 扩大规模：通向十亿参数模型之路

下一个挑战很明确：扩散模型能否扩展到数十亿参数和数万亿词元，匹配自回归大语言模型的能力？2024-2025年的三项并行努力从不同角度解决了这个问题。

DiffuLLaMA（2024）：从自回归模型改编

论文信息

标题：Scaling Diffusion Language Models via Adaptation from Autoregressive Models

作者：Gong et al., 2024

链接：arXiv:2410.17891

Gong等人没有从头开始训练，而是提出了一个巧妙的捷径：将现有的自回归模型改编为扩散模型。关键洞察是认识到自回归和扩散目标之间的相似性：

连接自回归和扩散

自回归和掩码扩散都对词元预测使用交叉熵损失。主要区别：

方面	自回归	掩码扩散
上下文	单向（因果掩蔽）	双向（全注意力）
输入	干净词元	部分掩蔽词元
损失权重	均匀（1.0）	时间依赖$w(t)$

改编过程

DiffuLLaMA通过三个关键技术转换自回归模型：

注意力掩码退火：训练期间从因果（自回归）逐渐过渡到全（扩散）注意力掩码
移位操作：通过移位输入序列，将自回归的下一词元预测与扩散的掩蔽词元预测对齐
无时间嵌入：去除显式时间条件，让模型从输入本身推断噪声水平

关键优势：效率

通过从预训练的自回归模型（LLaMA 2）开始，DiffuLLaMA用少于2000亿词元的训练达到70亿参数——比从头开始训练少几个数量级。

图2：DiffuLLaMA从自回归到扩散的改编过程

LLaDA（2025）：从头开始训练

论文信息

标题：Large Language Diffusion Models

作者：Nie et al., 2025

链接：arXiv:2501.04625

采取不同的方法，Nie等人从头开始大规模训练扩散模型。他们的关键创新：

1. 互补掩蔽

传统的掩码扩散浪费数据：当30%的词元被掩蔽时，其他70%不用于训练。LLaDA引入互补掩蔽：

采样一个随机掩码$M$
在$M$（30%掩蔽）和$\neg M$（70%掩蔽）上都进行训练
结果：每个训练示例100%词元覆盖

2. 前缀扩散语言模型（Prefix-DLM）

标准扩散从头开始生成整个序列。Prefix-DLM实现条件生成：

保持一部分词元（如指令或上下文）不被掩蔽
仅对后缀（响应）应用扩散
结果：在指令遵循任务上3.9倍加速

大规模训练

LLaDA在2.3万亿词元上训练（与现代自回归大语言模型相当）并达到：

1.27亿到70亿参数
在标准基准上与自回归模型竞争
在受约束生成任务上具有优越的可控性

图3：LLaDA互补掩蔽和Prefix-DLM架构

Dream-7B（2025）：上下文自适应噪声重调度

论文信息

标题：Dream 7B: Diffusion Large Language Models

作者：Ye et al., 2025

链接：arXiv:2501.14571

最新的突破Dream-7B通过一个关键创新实现了最先进的扩散大语言模型性能：上下文自适应词元级噪声重调度与时间加权（CART）。

CART机制

传统的掩码扩散应用统一的噪声调度。CART基于以下内容按词元适应噪声：

词元难度：困难的词元（罕见、模糊）获得更温和的噪声调度
上下文重要性：对下游推理至关重要的词元获得更多训练重点
时间依赖加权：在每个时间步$t$为每个词元$n$调整$w(t, x_t, n)$

为什么有效

通过按词元适应噪声，CART：

减少在琐碎词元上浪费的计算
将模型容量集中在具有挑战性的预测上
改进多步推理，其中早期错误会级联

图4：CART机制显示自适应词元级噪声重调度

基准测试结果

Dream-7B实现：

在MMLU上与Qwen2.5-7B（自回归）匹配：58.3%对比58.4%
在复杂推理上超越自回归：在Countdown（24步算术）上78%对比50%
优越的可控性：在受约束生成基准上+15%

图5：Dream-7B与自回归基线的性能比较

5. 专门领域：多模态与代码

LaViDa（2025）：多模态扩散

论文信息

标题：LaViDa: A Large Diffusion Language Model for Multimodal Understanding

作者：Li et al., 2025

链接：arXiv:2501.15309

虽然大多数工作专注于纯文本生成，但LaViDa将扩散扩展到视觉-语言任务。关键挑战：如何有效地将视觉信息整合到扩散过程中？

视觉缓存策略

在每个扩散步骤通过视觉编码器处理图像的成本过高。LaViDa引入视觉缓存：

使用冻结的视觉编码器（例如CLIP）一次性编码图像
缓存视觉特征
在所有扩散步骤中重用缓存的特征
结果：1.92倍加速，质量损失最小

结果

在多模态基准测试上：

COCO字幕生成：比自回归基线+4.1 CIDEr
VQA：与专门的视觉-语言模型竞争
图像-文本检索：优越的双向理解

图6：LaViDa架构和多模态任务性能

DiffuCoder（2025）：代码生成

论文信息

标题：DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation

作者：Gong et al., 2025

链接：arXiv:2501.13528

代码生成对扩散模型提出了独特挑战：严格的语法要求、长程依赖关系以及对可执行正确性的需求。DiffuCoder通过耦合组相对策略优化（Coupled-GRPO）解决这些问题。

为什么代码对扩散困难

解码模式：模型应该填空（填充）还是优化整个程序（去噪）？
语法敏感性：单个错误词元可能破坏执行
长依赖关系：变量定义可能远离其使用

Coupled-GRPO训练

代码的标准RLHF使用执行正确性作为奖励。DiffuCoder在以下之间添加耦合：

扩散步骤：较早的去噪步骤影响后面的步骤
词元组：句法单元（函数、循环）被联合奖励
多个样本：跨不同rollout的信用分配

关键发现

仅用2.1万个代码样本和Coupled-GRPO训练，DiffuCoder实现：

在EvalPlus上+4.4%超过自回归基线
更好的填充：在中间向外生成上提高12%
鲁棒性：在部分规范下更优雅的降级

6. 演进时间线：三个浪潮

浪潮1：基础（2022）

Diffusion-LM建立核心范式：

文本的嵌入空间扩散
基于梯度的可控生成
在小数据集上的概念验证

浪潮2：扩展（2024）

DiffuLLaMA展示高效扩展：

从自回归模型改编（70亿参数）
少于2000亿词元训练
注意力掩码退火和移位操作

浪潮3：成熟与专业化（2025）

多个并行突破：

LLaDA：用互补掩蔽在2.3万亿词元上从头开始训练
Dream-7B：具有上下文自适应噪声重调度的最先进水平
LaViDa：带有视觉缓存的多模态扩展
DiffuCoder：使用Coupled-GRPO的代码生成

轨迹

仅仅三年时间，扩散语言模型就从小规模实验演变为十亿参数系统，这些系统：

在标准基准上与自回归模型匹配
在复杂推理和可控性上超越自回归
自然扩展到多模态和代码领域
需要相似（或更少）的训练数据和计算

7. 扩散语言模型的关键优势

1. 双向上下文和全局规划

与仅看到左侧上下文的自回归模型不同，扩散模型在每一步都访问完整的双向上下文。这使得能够：

更好的长程连贯性
解决反转诅咒
自然处理中间填充任务

2. 灵活的速度-质量权衡

自回归模型必须顺序生成每个词元。扩散模型可以：

使用更少的去噪步骤以获得更快（但质量较低）的生成
在时间允许时使用更多步骤以获得更高质量
在测试时交换计算以获得性能（测试时扩展）

3. 优越的可控性

连续潜空间中的基于梯度的控制使得能够：

精确的约束满足（语法、格式、风格）
同时组合多个控制
每一步的细粒度引导

Dream-7B在受约束生成上比自回归模型+15%。

4. 迭代优化

扩散自然实现迭代优化：

从粗略草稿开始（高噪声）
逐步优化细节（低噪声）
通过多次去噪通过进行自我纠正

这与人类写作过程和智能体推理很好地对齐。

8. 开放挑战与未来方向

1. 推理效率

房间里的大象：扩散模型需要10-256个去噪步骤，而自回归只需一次前向传递。即使有优化：

Dream-7B使用约10步，但仍然比自回归慢
蒸馏可以减少步骤，但会增加训练复杂性
并行扩散步骤的硬件加速仍在开发中

开放问题：我们能否在不牺牲质量的情况下实现单步扩散？

2. 训练效率

虽然像LLaDA这样的模型匹配自回归训练成本，但问题仍然存在：

我们能否在互补掩蔽之外进一步提高数据效率？
是否有更好的噪声调度或掩蔽策略？
如何优化从自回归模型初始化与从头开始训练？

3. 后训练方法

自回归模型受益于成熟的RLHF/DPO/PPO技术。扩散模型需要扩散原生方法：

Coupled-GRPO显示出前景，但仍处于早期阶段
如何最好地利用非自回归生成的更丰富rollout多样性？
我们能否开发考虑整个序列的更好奖励模型？

4. 扩展定律

自回归模型有充分研究的扩展定律（Chinchilla等）。对于扩散：

模型大小、数据和扩散步骤之间的最佳计算分配是什么？
扩展属性与自回归模型有何不同？
我们能否预测大规模扩散大语言模型的性能？

9. 更广泛的影响

扩散语言模型的崛起不仅仅代表一种新的技术方法——它挑战了关于语言模型应该如何工作的基本假设。

重新思考核心能力

多年来，我们一直假设大语言模型的能力——上下文学习、指令遵循、涌现推理——本质上与自回归架构相关。扩散模型的成功证明了相反。这些能力源于：

生成建模原则（最大似然、压缩）
规模（参数、数据、计算）
Transformer架构

而不是自回归公式本身。这为探索替代生成范式开辟了令人兴奋的可能性。

此外，扩散模型为未来大语言模型的发展提供了不同的路径：

混合系统：结合自回归的简单生成效率和扩散的复杂推理能力
测试时扩展：扩散的灵活推理步骤为在测试时权衡计算与质量提供了自然旋钮
智能体系统：迭代优化与智能体规划和自我纠正很好地对齐
结构化生成：需要严格格式遵守（代码、JSON、形式语言）的应用可能更青睐扩散的可控性

10. 结论：新篇章，而非最终答案

从Diffusion-LM在2022年的开创性工作到Dream-7B在2025年的最先进结果，这段旅程讲述了一个快速进步的非凡故事。仅仅三年时间，扩散语言模型就从小规模实验演变为在十亿参数规模上与自回归大语言模型竞争的替代方案。

扩散模型准备好取代自回归大语言模型了吗？还没有。自回归模型仍然主导于：

简单生成的推理效率
训练技术和基础设施的成熟度
工具、库和优化的生态系统

但扩散模型已经证明它们属于这个对话。它们提供独特的优势——双向推理、可控性、灵活推理、迭代优化——使它们对特定应用具有吸引力，并推动语言生成可能性的边界。

前进的道路

未来可能不是"扩散对自回归"，而是一个丰富的方法生态系统，每种方法在不同任务上表现出色：

自回归用于高效、直接的生成
扩散用于复杂推理、规划和受约束生成
结合两者优势的混合方法
我们尚未想象的新范式

可以肯定的是，自回归霸权已经受到挑战，语言建模从未如此令人兴奋。

参考文献

Diffusion-LM Improves Controllable Text Generation
Li et al., 2022
arXiv:2205.14217
引入带有基于梯度控制的连续文本扩散的基础工作
Scaling Diffusion Language Models via Adaptation from Autoregressive Models
Gong et al., 2024
arXiv:2410.17891
DiffuLLaMA - 达到70亿参数的高效改编方法
Large Language Diffusion Models
Nie et al., 2025
arXiv:2501.04625
LLaDA - 使用互补掩蔽和Prefix-DLM从头开始训练
Dream 7B: Diffusion Large Language Models
Ye et al., 2025
arXiv:2501.14571
具有上下文自适应噪声重调度的当前最先进水平
LaViDa: A Large Diffusion Language Model for Multimodal Understanding
Li et al., 2025
arXiv:2501.15309
将扩散扩展到视觉-语言任务
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation
Gong et al., 2025
arXiv:2501.13528
使用Coupled-GRPO训练的代码专用模型

关于本文

这篇技术博客综合了2022-2025年发表的关于扩散语言模型的研究论文。该博客由星弧发布。要获取最新的研究讨论，请在X（推特）上关注我们：@Starc_institute

所有参考文献、数学公式和技术细节均直接引用自所引用的论文。有关完整的实验细节和其他结果，请参阅原始论文。

星弧
最后更新：2025年11月