🔬 概述:从物理现象到生成式 AI
扩散模型(Diffusion Models, DMs)作为一种前沿的生成式人工智能技术,其核心设计理念直接来源于非平衡态热力学(Nonequilibrium Thermodynamics)和物理学中的扩散现象。
这两者之间的关系并非偶然的命名相似,而是扩散模型在数学和理论上对自然界扩散过程的模仿与逆转。
1. 热力学扩散定律(物理基础)
在物理学和化学中,扩散是一个自发的、趋向于热平衡的弛豫过程。它描述了粒子从高浓度(高化学势)区域向低浓度(低化学势)区域的净迁移。
核心数学描述:菲克定律(Fick’s Laws)
- 驱动力: 浓度梯度或化学势梯度。
- 数学模型: 菲克第二定律(Fick’s Second Law)是一个抛物型偏微分方程,它描述了浓度随时间和空间的变化:
$$
\frac{\partial \phi}{\partial t} = D \nabla^2 \phi
$$
其中:- $\phi$ 是浓度或密度。
- $t$ 是时间。
- $D$ 是扩散系数。
- $\nabla^2$ 是拉普拉斯算子,代表空间上的二阶导数(浓度梯度变化)。
- 物理意义: 这个方程描述了粒子在布朗运动(随机运动)影响下,密度分布如何随时间趋于均匀(熵增)。
2. 扩散模型(Diffusion Models, DMs)的架构
扩散模型是一类潜变量模型,通过马尔可夫链进行训练,其工作流程分为两个主要阶段,精确地对应了物理扩散过程的正向和逆向。
A. 前向过程(Forward Process / 加噪过程)
- 目的: 系统地破坏数据结构。
- 操作: 从一个清晰的数据样本(例如图像 $X_0$)开始,在多个时间步长(T)内,逐步、有规律地添加微小的高斯白噪声。
- 物理类比: 这模拟了自然界的热力学扩散过程——从有序(清晰图像)到无序(纯噪声)的过程,如墨水滴入水中逐渐弥散。这是一个不可逆的熵增过程。
- 结果: 在 $T$ 步之后,原始数据完全退化为服从简单高斯分布的纯噪声 $X_T$。
B. 逆向过程(Reverse Process / 去噪过程)
- 目的: 从纯噪声中重建原始数据。
- 操作: 训练一个神经网络(通常是 U-Net 架构)来学习并预测前向过程中每一步所添加的噪声,并将其减去。
- 物理类比: 这相当于学习逆转物理扩散过程——将无序的噪声去噪(去随机化)成有序、连贯的图像。在理论上,这可以看作是反向热力学过程。
- 结果: 从纯噪声 $X_T$ 开始,通过逐步的去噪,最终生成一个新的、高质量的数据样本 $X_0$。
3. 核心关系:随机微分方程(SDE)
扩散模型和物理扩散定律最深刻的联系在于其数学形式:
- 物理学: 扩散现象(如布朗运动)通常由朗之万方程(Langevin Equation)或更一般的**随机微分方程(SDE)**来描述。
- 扩散模型: DMs 的前向加噪过程在数学上正是通过一个离散化的 SDE 或随机马尔可夫链来建模的,其中“噪声项”反映了随机的热力学波动。
理论借鉴:非平衡态热力学
扩散模型的早期和高级研究借鉴了随机热力学(Stochastic Thermodynamics)和非平衡态热力学的原理。
- 自由能和势能: 在某些理论框架下,生成模型(包括扩散模型)可以被视为在学习数据分布的“自由能”或“势能”景观。扩散和去噪过程则是在这个景观上进行梯度下降或采样的动态过程。
- 昂萨格倒易关系: 扩散作为一种输运现象,与热力学中的昂萨格倒易关系等概念相联系,为扩散模型提供了严谨的理论基础,例如用于分析生成速度、准确性和热力学耗散(熵产生)之间的权衡关系(即 Speed-Accuracy Trade-off)。
因此,扩散模型是借用物理学中经过严格验证的扩散动力学(一个从有序到无序的熵增过程)作为其加噪框架,然后训练一个深度神经网络来学习该过程的时间逆转,从而实现高效和高质量的数据生成。