爆火Sora背后的技术，一文综述扩散模型的最新发展方向 _Sora

为了使机器具有人类的想象力，深度生成模型取得了重大进展。这些模型能创造逼真的样本，尤其是扩散模型，在多个领域表现出色。扩散模型解决了其他模型的限制，如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。因此，扩散模型在计算机视觉、自然语言处理等方面备受关注。
扩散模型由两个过程组成：前向过程和反向过程。前向过程把数据转化为简单的先验分布，而反向过程则逆转这一变化，用训练好的神经网络模拟微分方程来生成数据。与其他模型相比，扩散模型提供了更稳定的训练目标和更好的生成效果。

文章插图
不过，扩散模型的采样过程伴随反复推理求值。这一过程面临着不稳定性、高维计算需求和复杂的似然性优化等挑战。研究者为此提出了多种方案，如改进 ODE/SDE 解算器和采取模型蒸馏策略来加速采样，以及新的前向过程来提高稳定性和降低维度。
近期，港中文联合西湖大学、MIT、之江实验室，在 IEEE TKDE 上发表的题为《A Survey on Generative Diffusion Models》的综述论文从四个方面讨论了扩散模型的最新进展：采样加速、过程设计、似然优化和分布桥接。该综述还深入探讨了扩散模型在不同应用领域的成功，如图像合成、视频生成、3D 建模、医学分析和文本生成等。通过这些应用案例，展示了扩散模型在真实世界中的实用性和潜力。

文章插图

论文地址：https://arxiv.org/pdf/2209.02646.pdf
项目地址：https://Github.com/chq1155/A-Survey-on-Generative-Diffusion-Model?tab=readme-ov-file

算法改进
采样加速

知识蒸馏

在扩散模型领域，提高采样速度的关键技术之一是知识蒸馏。这个过程涉及从一个大型、复杂的模型中提取出知识，并将其转移到一个更小、更高效的模型中。例如，通过使用知识蒸馏，我们可以简化模型的采样轨迹，使得在每个步骤中都以更高的效率逼近目标分布。Salimans 等人采用了一种基于常微分方程（ODE）的方法来优化这些轨迹，而其他研究者则发展了直接从噪声样本估计干净数据的技术，从而在时间点 T 上加速了这一过程。

训练方式

改进训练方式也是提升采样效率的一种方法。一些研究专注于学习新的扩散方案，其中数据不再是简单地加入高斯噪声，而是通过更复杂的方法映射到潜在空间。这些方法中，有些关注于优化逆向解码过程，比如调整编码的深度，而其他则探索了新的噪声规模设计，使噪声的加入不再是静态的，而是变成了一个可以在训练过程中学习的参数。

免训练采样

除了训练新的模型以提高效率，还有一些技术致力于加速已经预训练好的扩散模型的采样过程。ODE 加速是其中的一种技术，它利用 ODE 来描述扩散过程，从而使得采样可以更快地进行。例如，DDIM 是一种利用 ODE 进行采样的方法，后续的研究则引入了更高效的 ODE 求解器，如 PNDM 和 EDM，以进一步提升采样速度。

结合其他生成模型

此外，还有研究者提出了解析方法来加速采样，这些方法试图找到一个无需迭代就能从噪声数据中直接恢复干净数据的解析解。这些方法包括 Analytic-DPM 及其改进版本 Analytic-DPM++ ，它们提供了一种快速且精确的采样策略。
扩散过程设计

潜在空间

潜在空间扩散模型如 LSGM 和 INDM 结合了 VAE 或归一化流模型，通过共用的加权去噪分数匹配损失来优化编解码器和扩散模型，使得 ELBO 或对数似然的优化旨在构建易于学习和生成样本的潜在空间。例如， Stable Diffusion 首先使用 VAE 学习潜在空间，然后训练扩散模型以接受文本输入。DVDP 则在图像扰动过程中动态调整像素空间的正交组件。

创新的前向过程

为了提高生成模型的效率和强度，研究人员探索了新的前向过程设计。泊松场生成模型将数据视为电荷，沿电场线将简单分布引向数据分布，与传统扩散模型相比，它提供了更强大的反向采样。PFGM++ 进一步将这一概念纳入高维度变量。Dockhorn 等人的临界阻尼朗之万扩散模型利用哈密顿动力学中的速度变量简化了条件速度分布的分数函数学习。

非欧几里得空间

在离散空间数据（如文本、分类数据）的扩散模型中，D3PM 定义了离散空间的前向过程。基于这种方法，已有研究扩展到语言文本生成、图分割和无损压缩等。在多模态挑战中，矢量量化数据转换为代码，显示出卓越的结果。在黎曼流形中的流形数据，如机器人技术和蛋白质建模，要求扩散采样纳入黎曼流形。图神经网络和扩散理论的结合，如 EDP-GNN 和 GraphGDP，处理图数据来捕捉排列不变性。