爆火Sora背后的技术,一文综述扩散模型的最新发展方向( 二 )


似然优化
尽管扩散模型优化了 ELBO,但似然优化仍是一个挑战,特别是对于连续时间扩散模型 。ScoreFlow 和变分扩散模型(VDM)等方法建立了 MLE 训练与 DSM 目标的联系,Girsanov 定理在此中起到了关键作用 。改进的去噪扩散概率模型(DDPM)提出了一种结合变分下界和 DSM 的混合学习目标 , 以及一种简单的重新参数化技术 。
分布连接
扩散模型在将高斯分布转换为复杂分布时表现出色,但在连接任意分布时存在挑战 。α- 混合方法通过迭代混合和解混来创建确定性桥梁 。矫正流加入额外步骤来矫正桥梁路径 。另一种方法是通过 ODE 实现两个分布之间的连接,而薛定谔桥或高斯分布作为中间连接点的方法也在研究之中 。

爆火Sora背后的技术,一文综述扩散模型的最新发展方向

文章插图
应用领域
图片生成
扩散模型在图像生成中非常成功 , 不仅能生成普通图像,还能完成复杂任务,比如把文本转换成图像 。模型如 Imagen、Stable Diffusion 和 DALL-E 2 在这方面展示了高超技术 。它们使用扩散模型结构,结合跨注意力层的技术,把文本信息整合进生成图像 。除了生成新图像,这些模型还能编辑图像而不需再训练 。编辑是通过调整跨注意力层(键、值、注意力矩阵)实现的 。比如,通过调整特征图改变图像元素或引入新文本嵌入加入新概念 。有研究确保模型生成时能关注文本的所有关键词,以确保图像准确反映描述 。扩散模型还能处理基于图像的条件输入,比如源图像、深度图或人体骨架等,通过编码并整合这些特征来引导图像生成 。一些研究把源图像编码特征加入模型开始层 , 实现图像到图像编辑,也适用于深度图、边缘检测或骨架作为条件的场景 。
【爆火Sora背后的技术,一文综述扩散模型的最新发展方向】3D 生成
在 3D 生成方面,通过扩散模型的方法主要有两种 。第一种是直接在 3D 数据上训练模型,这些模型已被有效应用在多种 3D 表示形式 , 如 NeRF、点云或体素等 。例如,研究者们已经展示了如何直接生成 3D 对象的点云 。为了提高采样的效率,一些研究引入了混合点 - 体素表示,或者将图像合成作为点云生成的额外条件 。另一方面 , 有研究使用扩散模型来处理 3D 对象的 NeRF 表示,并通过训练视角条件扩散模型来合成新颖视图,优化 NeRF 表示 。第二种方法强调使用 2D 扩散模型的先验知识来生成 3D 内容 。比如 , Dreamfusion 项目使用得分蒸馏采样目标,从预训练的文本到图像模型中提取出 NeRF,并通过梯度下降优化过程来实现低损失的渲染图像 。这一过程也被进一步扩展,以加快生成速度 。
视频生成
视频扩散模型是对 2D 图像扩散模型的扩展 , 它们通过添加时间维度来生成视频序列 。这种方法的基本思想是在现有的 2D 结构中添加时间层 , 以此来模拟视频帧之间的连续性和依赖关系 。相关的工作展示了如何利用视频扩散模型来生成动态内容,例如 Make-A-Video、AnimatedDiff 等模型 。更具体地,RaMViD 模型使用 3D 卷积神经网络扩展图像扩散模型到视频,并开发了一系列视频特定的条件技术 。
医学分析
扩散模型帮助解决了医学分析中获取高质量数据集的挑战,尤其在医学成像方面表现出色 。这些模型凭借其强大的图像捕捉能力,在提升图像的分辨率、进行分类和噪声处理方面取得了成功 。例如,Score-MRI 和 Diff-MIC 使用先进的技术加速 MRI 图像的重建和实现更精确的分类 。MCG 在 CT 图像超分辨率中采用流形校正,提高了重建速度和准确性 。在生成稀有图像方面,通过特定技术,模型能在不同类型的图像间进行转换 。例如 , FNDM 和 DiffuseMorph 分别用于脑部异常检测和 MR 图像配准 。一些新方法通过少量高质量样本合成训练数据集,如一个使用 31,740 个样本的模型合成了一个包含 100,000 个实例的数据集,取得了非常低的 FID 得分 。
文本生成
文本生成技术是连接人类和 AI 的重要桥梁,能制造流畅自然的语言 。自回归语言模型虽然生成连贯性强的文本但速度慢 , 而扩散模型能够快速生成文本但连贯性相对较弱 。两种主流的方法是离散生成和潜在生成 。离散生成依赖于先进技术和预训练模型;例如,D3PM 和 Argmax 视词汇为分类向量,而 DiffusionBERT 将扩散模型与语言模型结合提升文本生成 。潜在生成则在令牌的潜在空间中生成文本,例如,LM-Diffusion 和 GENIE 等模型在各种任务中表现出色,显示了扩散模型在文本生成中的潜力 。扩散模型预计将在自然语言处理中提升性能 , 与大型语言模型结合,并支持跨模态生成 。


推荐阅读