文本生成的新范式
由星弧发布, 请在X(推特)上关注我们:@Starc_institute
文本生成的新范式
由星弧发布, 请在X(推特)上关注我们:@Starc_institute
数十年来,语言建模的故事一直是从左到右、一次一个词元地书写的。从n-gram到GPT-4的自回归模型一直占据主导地位,通过预测给定所有先前词的下一个词来工作。但如果我们能以不同的方式生成文本呢?如果我们不是按顺序构建句子,而是可以并行地优化整个序列,一次看到全局呢?
本文探讨扩散语言模型的演进,从2022年的开创性基础到2025年的最先进系统。这些论文代表了从顺序、单向生成到并行、双向优化的范式转变——挑战了定义现代自然语言处理的自回归霸权。
GPT-3、LLaMA和Claude等大型语言模型的成功堪称革命性。这些模型自回归地生成文本——从左到右一次预测一个词元,每个预测都以所有先前词元为条件。在数学上,它们建模概率:
$$p_{\theta}(x) = p_{\theta}(x_1) \prod_{i=2}^{N} p_{\theta}(x_i \mid x_{1:i-1})$$
这种从左到右的分解一直是几乎所有现代大语言模型的基础。
但这一范式尽管在经验上取得了成功,却存在根本性的局限:
自回归范式真的是语言建模能力的唯一途径吗?还是它只是我们找到的第一个成功方法,具有我们已经学会绕过的根本性架构局限?
当自回归模型主导文本领域时,一种不同的范式在计算机视觉中取得了显著成功。扩散模型——通过迭代去噪随机噪声来生成图像——在DALL-E 2、Stable Diffusion和Midjourney中产生了惊人的结果。关键洞察:扩散模型不是顺序生成像素,而是通过多个去噪步骤并行地优化整个图像。
扩散模型通过两个过程工作:
这种双向的生成视角使得全局规划和迭代优化成为可能——这些能力用从左到右的生成很难实现。
但将扩散适配到文本并不简单。文本本质上是离散的——来自固定词汇表的单个词元——而扩散是为连续域设计的。突破来自离散扩散模型和掩码扩散框架。
离散文本扩散不是添加高斯噪声,而是使用掩蔽过程:逐渐用特殊的[MASK]词元替换词元,直到整个序列被掩蔽。然后模型学习在给定部分掩蔽序列的情况下预测原始词元。
训练目标变成加权交叉熵损失:
$$\mathcal{L}(\theta) = \mathbb{E}_{x_0,t,x_t} \left[ w(t) \sum_{n=1}^{N} \mathbb{1}[x_t^n = \text{MASK}] \log p_{\theta}(x_0^n \mid x_t) \right]$$
其中\(w(t)\)加权不同的噪声水平,通常强调更干净的序列(较小的\(t\))以提高样本质量。
图1:离散扩散中的前向掩蔽过程和反向去噪
Li等人的开创性工作引入了Diffusion-LM,证明连续扩散可以用于文本生成——不是直接对离散词元操作,而是在词嵌入空间中进行扩散。这需要几项创新:
但真正的突破在于可控生成。由于扩散在连续潜变量上操作,基于梯度的控制变得自然:
在每个去噪步骤,更新潜变量以最大化流畅性(扩散模型)和控制(分类器):
$$\nabla_{x_{t-1}} \log p(x_{t-1} \mid x_t, c) = \nabla_{x_{t-1}} \log p(x_{t-1} \mid x_t) + \nabla_{x_{t-1}} \log p(c \mid x_{t-1})$$
这使得能够进行复杂的控制,如句法结构、语义内容,甚至组合多个约束——这对自回归模型来说极其困难。
Diffusion-LM在细粒度控制任务(语法树、语义约束)上显示出令人印象深刻的结果,几乎将即插即用自回归方法(如PPLM)的成功率提高了一倍。但它只在小数据集上训练,仍远未达到现代大语言模型的规模。
下一个挑战很明确:扩散模型能否扩展到数十亿参数和数万亿词元,匹配自回归大语言模型的能力?2024-2025年的三项并行努力从不同角度解决了这个问题。
标题:Scaling Diffusion Language Models via Adaptation from Autoregressive Models
作者:Gong et al., 2024
Gong等人没有从头开始训练,而是提出了一个巧妙的捷径:将现有的自回归模型改编为扩散模型。关键洞察是认识到自回归和扩散目标之间的相似性:
自回归和掩码扩散都对词元预测使用交叉熵损失。主要区别:
| 方面 | 自回归 | 掩码扩散 |
|---|---|---|
| 上下文 | 单向(因果掩蔽) | 双向(全注意力) |
| 输入 | 干净词元 | 部分掩蔽词元 |
| 损失权重 | 均匀(1.0) | 时间依赖\(w(t)\) |
DiffuLLaMA通过三个关键技术转换自回归模型:
通过从预训练的自回归模型(LLaMA 2)开始,DiffuLLaMA用少于2000亿词元的训练达到70亿参数——比从头开始训练少几个数量级。
图2:DiffuLLaMA从自回归到扩散的改编过程
采取不同的方法,Nie等人从头开始大规模训练扩散模型。他们的关键创新:
传统的掩码扩散浪费数据:当30%的词元被掩蔽时,其他70%不用于训练。LLaDA引入互补掩蔽:
标准扩散从头开始生成整个序列。Prefix-DLM实现条件生成:
LLaDA在2.3万亿词元上训练(与现代自回归大语言模型相当)并达到:
图3:LLaDA互补掩蔽和Prefix-DLM架构
最新的突破Dream-7B通过一个关键创新实现了最先进的扩散大语言模型性能:上下文自适应词元级噪声重调度与时间加权(CART)。
传统的掩码扩散应用统一的噪声调度。CART基于以下内容按词元适应噪声:
通过按词元适应噪声,CART:
图4:CART机制显示自适应词元级噪声重调度
Dream-7B实现:
图5:Dream-7B与自回归基线的性能比较
标题:LaViDa: A Large Diffusion Language Model for Multimodal Understanding
作者:Li et al., 2025
虽然大多数工作专注于纯文本生成,但LaViDa将扩散扩展到视觉-语言任务。关键挑战:如何有效地将视觉信息整合到扩散过程中?
在每个扩散步骤通过视觉编码器处理图像的成本过高。LaViDa引入视觉缓存:
在多模态基准测试上:
图6:LaViDa架构和多模态任务性能
标题:DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation
作者:Gong et al., 2025
代码生成对扩散模型提出了独特挑战:严格的语法要求、长程依赖关系以及对可执行正确性的需求。DiffuCoder通过耦合组相对策略优化(Coupled-GRPO)解决这些问题。
代码的标准RLHF使用执行正确性作为奖励。DiffuCoder在以下之间添加耦合:
仅用2.1万个代码样本和Coupled-GRPO训练,DiffuCoder实现:
Diffusion-LM建立核心范式:
DiffuLLaMA展示高效扩展:
多个并行突破:
仅仅三年时间,扩散语言模型就从小规模实验演变为十亿参数系统,这些系统:
与仅看到左侧上下文的自回归模型不同,扩散模型在每一步都访问完整的双向上下文。这使得能够:
自回归模型必须顺序生成每个词元。扩散模型可以:
连续潜空间中的基于梯度的控制使得能够:
Dream-7B在受约束生成上比自回归模型+15%。
扩散自然实现迭代优化:
这与人类写作过程和智能体推理很好地对齐。
房间里的大象:扩散模型需要10-256个去噪步骤,而自回归只需一次前向传递。即使有优化:
开放问题:我们能否在不牺牲质量的情况下实现单步扩散?
虽然像LLaDA这样的模型匹配自回归训练成本,但问题仍然存在:
自回归模型受益于成熟的RLHF/DPO/PPO技术。扩散模型需要扩散原生方法:
自回归模型有充分研究的扩展定律(Chinchilla等)。对于扩散:
扩散语言模型的崛起不仅仅代表一种新的技术方法——它挑战了关于语言模型应该如何工作的基本假设。
多年来,我们一直假设大语言模型的能力——上下文学习、指令遵循、涌现推理——本质上与自回归架构相关。扩散模型的成功证明了相反。这些能力源于:
而不是自回归公式本身。这为探索替代生成范式开辟了令人兴奋的可能性。
此外,扩散模型为未来大语言模型的发展提供了不同的路径:
从Diffusion-LM在2022年的开创性工作到Dream-7B在2025年的最先进结果,这段旅程讲述了一个快速进步的非凡故事。仅仅三年时间,扩散语言模型就从小规模实验演变为在十亿参数规模上与自回归大语言模型竞争的替代方案。
扩散模型准备好取代自回归大语言模型了吗?还没有。自回归模型仍然主导于:
但扩散模型已经证明它们属于这个对话。它们提供独特的优势——双向推理、可控性、灵活推理、迭代优化——使它们对特定应用具有吸引力,并推动语言生成可能性的边界。
未来可能不是"扩散对自回归",而是一个丰富的方法生态系统,每种方法在不同任务上表现出色:
可以肯定的是,自回归霸权已经受到挑战,语言建模从未如此令人兴奋。
这篇技术博客综合了2022-2025年发表的关于扩散语言模型的研究论文。该博客由星弧发布。要获取最新的研究讨论,请在X(推特)上关注我们:@Starc_institute
所有参考文献、数学公式和技术细节均直接引用自所引用的论文。有关完整的实验细节和其他结果,请参阅原始论文。
星弧
最后更新:2025年11月