SORA背后的逻辑: Scalable Diffusion Models with Transformers - 知乎

随着SORA大火,SORA背后的模型也越来越引起大家的关注。SORA的技术进步根源于其采用的全新图像处理架构Diffusion Transformer架构。今天抽空review这篇文章。

前言

基于 Transformer 架构,文章探索了一种新型扩散模型。该模型使用潜在扩散模型训练图像,以 Transformer 替代常用的 U-Net 主干网,对潜在补丁进行操作。通过以 Gflops 衡量的前向传递复杂度来分析扩散Transformer(DiT) 的可扩展性。结果显示,通过增加Transformer深度/宽度或增加输入令牌数量,具有较高 Gflops 的 DiT 始终具有较低的 FID。除了拥有良好的可扩展性之外,最大的 DiT-XL/2 模型在类条件 ImageNet 512×512 和 256×256 基准上的性能优于所有先前的扩散模型,在后者上实现了最先进的 FID 2.27。

1. 介绍

_机器学习正在经历由 Transformer 驱动的复兴。_在过去的五年里,自然语言处理、视觉和其他几个领域的神经架构很大程度上已被 Transformer 所涵盖。然而,许多类别的图像级生成模型仍然抵制这一趋势——虽然 Transformer 在自回归模型中得到广泛使用,但在其他生成模型框架中的采用较少。例如,扩散模型一直处于图像级生成模型最新进展的前沿;然而,它们都采用卷积 U-Net 架构作为骨干网络的实际选择。

Ho 等人的开创性工作首次引入了扩散模型的 U-Net 主干。U-Net 最初在像素级自回归模型和条件 GAN 中取得了成功,它继承自 PixelCNN++,并进行了一些更改。该模型是卷积模型,主要由 ResNet 块组成。与标准 U-Net 相比,额外的空间自注意力块(Transformer 中的重要组成部分)以较低的分辨率散布。Dhariwal 和 Nichol 取消了 UNet 的几种架构选择,例如使用自适应归一化层为卷积层注入条件信息和通道计数。然而,Ho 等人的 UNet 的高层设计基本上保持完好。

这项工作旨在揭示扩散模型中架构选择的重要性,并为未来的生成式建模研究提供实证基准。结果表明,U-Net 归纳偏差对于扩散模型的性能并不是至关重要的,它们可以很容易地被标准设计(如 Transformer)所取代。因此,扩散模型有望从最近的架构统一趋势中受益——例如,通过继承其他领域的最佳实践和训练配方,以及保留可扩展性、鲁棒性和效率等有利特性。标准化的架构也将为跨领域研究开辟新的可能性。

本文重点研究了一种基于 Transformer 的新型扩散模型, Diffusion Transformer,简称 DiTs。DiTs 遵循了 Vision Transformer(ViT)的最佳实践,这些实践已经证明,在视觉识别方面,与传统的卷积网络相比,ViT 可以更有效地扩展。

更具体地说,我们研究了 Transformer 的扩展行为,包括网络复杂度与样本质量之间的关系。我们通过构建和基准测试潜伏扩散模型(LDMs)框架下的 DiT 设计空间,其中扩散模型在 VAE 的潜伏空间内进行训练,成功地用 Transformer 替换了 U-Net 骨干。我们进一步表明,DiTs 是可扩展的扩散模型架构:网络复杂度(以 Gflops 衡量)与样本质量(以 FID 衡量)之间存在很强的相关性。通过简单地扩展 DiT 并使用高容量的骨干(118.6 Gflops)训练 LDM,我们能够在 256×256 类条件 ImageNet 生成基准上实现 2.27 FID 的最先进结果。

2. 相关工作

2.1. Transformers

Transformer 已取代了语言、视觉、强化学习和元学习等领域的特定架构。在语言领域,它们作为通用自回归模型和 ViT 显示出显著的扩展特性,模型规模、训练计算和数据都在不断增加。除了语言之外,Transformer 还经过训练可以自回归预测像素。它们还接受了离散代码本的训练,既是自回归模型,也是掩码生成模型;前者在高达 20B 参数时表现出出色的扩展行为。最后,Transformer 已在 DDPM 中用于合成非空间数据。在本文中,我们研究了将 Transformer 用作图像扩散模型骨干时的扩展特性。

2.2. 去噪扩散概率模型(DDPM)

扩散模型和基于分数的生成模型作为图像生成模型尤为成功。在过去两年中,DDPM 的改进主要是由于改进的采样技术,最值得注意的是无分类器指导,将扩散模型重新表述为预测噪声而不是像素,以及使用级联 DDPM 流水线,其中低分辨率基础扩散模型与上采样器并行训练。对于上面列出的所有扩散模型,卷积 U-Nets是骨干架构的事实选择。本文探索纯 Transformer。

2.3. 架构复杂性

在图像生成文献中评估架构复杂性时,使用参数量是相当常见的做法。但这种复杂性统计并不理想,因为它们不考虑例如图像分辨率等,会显着影响性能的参数。相反,本文中的大部分模型复杂性分析都是通过理论 Gflops 进行的。Nichol 和 Dhariwal 的开创性工作改进了扩散模型并分析了 U-Net 架构的可扩展性和 Gflop 特性。在本文中,我们专注于 Transformer 类型。

3. Diffusion Transformers

3.1. Preliminaries

3.1.1. 扩散公式

在介绍我们的架构之前,我们首先简单介绍扩散模型(DDPM)所需的一些基本概念。高斯扩散模型假设一个前向噪声过程,逐渐将噪声应用于实际数据 x0:q(xt|x0)=N(xt;α¯tx0,(1−α¯)I) x_0:q(x_t|x_0)=N(x_t;\sqrt{\bar\alpha_t}x_0,(1-\bar\alpha)I) ,其中常数 α¯\bar\alpha 是超参。通过应用重新参数化技巧,我们可以采样 xt=α¯tx0+1−α¯ϵt,ϵt∼N(0,I) x_t=\sqrt{\bar\alpha_t}x_0 + \sqrt{1-\bar\alpha}\epsilon_t, \epsilon_t\sim N(0,I)

未完待续


原网址: 访问
创建于: 2024-02-29 16:02:41
目录: default
标签: 无

请先后发表评论
  • 最新评论
  • 总共0条评论