SORA背后的逻辑： Scalable Diffusion Models with Transformers - 知乎

安宇雨 - 随手采集
2024-02-29 16:02:41
随手采集
0000-未整理-等待研究

随着SORA大火，SORA背后的模型也越来越引起大家的关注。SORA的技术进步根源于其采用的全新图像处理架构Diffusion Transformer架构。今天抽空review这篇文章。

前言

基于 Transformer 架构，文章探索了一种新型扩散模型。该模型使用潜在扩散模型训练图像，以 Transformer 替代常用的 U-Net 主干网，对潜在补丁进行操作。通过以 Gflops 衡量的前向传递复杂度来分析扩散Transformer(DiT) 的可扩展性。结果显示，通过增加Transformer深度/宽度或增加输入令牌数量，具有较高 Gflops 的 DiT 始终具有较低的 FID。除了拥有良好的可扩展性之外，最大的 DiT-XL/2 模型在类条件 ImageNet 512×512 和 256×256 基准上的性能优于所有先前的扩散模型，在后者上实现了最先进的 FID 2.27。

1. 介绍

_机器学习正在经历由 Transformer 驱动的复兴。_在过去的五年里，自然语言处理、视觉和其他几个领域的神经架构很大程度上已被 Transformer 所涵盖。然而，许多类别的图像级生成模型仍然抵制这一趋势——虽然 Transformer 在自回归模型中得到广泛使用，但在其他生成模型框架中的采用较少。例如，扩散模型一直处于图像级生成模型最新进展的前沿；然而，它们都采用卷积 U-Net 架构作为骨干网络的实际选择。

Ho 等人的开创性工作首次引入了扩散模型的 U-Net 主干。U-Net 最初在像素级自回归模型和条件 GAN 中取得了成功，它继承自 PixelCNN++，并进行了一些更改。该模型是卷积模型，主要由 ResNet 块组成。与标准 U-Net 相比，额外的空间自注意力块（Transformer 中的重要组成部分）以较低的分辨率散布。Dhariwal 和 Nichol 取消了 UNet 的几种架构选择，例如使用自适应归一化层为卷积层注入条件信息和通道计数。然而，Ho 等人的 UNet 的高层设计基本上保持完好。

这项工作旨在揭示扩散模型中架构选择的重要性，并为未来的生成式建模研究提供实证基准。结果表明，U-Net 归纳偏差对于扩散模型的性能并不是至关重要的，它们可以很容易地被标准设计（如 Transformer）所取代。因此，扩散模型有望从最近的架构统一趋势中受益——例如，通过继承其他领域的最佳实践和训练配方，以及保留可扩展性、鲁棒性和效率等有利特性。标准化的架构也将为跨领域研究开辟新的可能性。

本文重点研究了一种基于 Transformer 的新型扩散模型, Diffusion Transformer，简称 DiTs。DiTs 遵循了 Vision Transformer（ViT）的最佳实践，这些实践已经证明，在视觉识别方面，与传统的卷积网络相比，ViT 可以更有效地扩展。

更具体地说，我们研究了 Transformer 的扩展行为，包括网络复杂度与样本质量之间的关系。我们通过构建和基准测试潜伏扩散模型（LDMs）框架下的 DiT 设计空间，其中扩散模型在 VAE 的潜伏空间内进行训练，成功地用 Transformer 替换了 U-Net 骨干。我们进一步表明，DiTs 是可扩展的扩散模型架构：网络复杂度（以 Gflops 衡量）与样本质量（以 FID 衡量）之间存在很强的相关性。通过简单地扩展 DiT 并使用高容量的骨干（118.6 Gflops）训练 LDM，我们能够在 256×256 类条件 ImageNet 生成基准上实现 2.27 FID 的最先进结果。

2. 相关工作

2.1. Transformers

Transformer 已取代了语言、视觉、强化学习和元学习等领域的特定架构。在语言领域，它们作为通用自回归模型和 ViT 显示出显著的扩展特性，模型规模、训练计算和数据都在不断增加。除了语言之外，Transformer 还经过训练可以自回归预测像素。它们还接受了离散代码本的训练，既是自回归模型，也是掩码生成模型；前者在高达 20B 参数时表现出出色的扩展行为。最后，Transformer 已在 DDPM 中用于合成非空间数据。在本文中，我们研究了将 Transformer 用作图像扩散模型骨干时的扩展特性。

2.2. 去噪扩散概率模型（DDPM）

扩散模型和基于分数的生成模型作为图像生成模型尤为成功。在过去两年中，DDPM 的改进主要是由于改进的采样技术，最值得注意的是无分类器指导，将扩散模型重新表述为预测噪声而不是像素，以及使用级联 DDPM 流水线，其中低分辨率基础扩散模型与上采样器并行训练。对于上面列出的所有扩散模型，卷积 U-Nets是骨干架构的事实选择。本文探索纯 Transformer。

2.3. 架构复杂性

在图像生成文献中评估架构复杂性时，使用参数量是相当常见的做法。但这种复杂性统计并不理想，因为它们不考虑例如图像分辨率等，会显着影响性能的参数。相反，本文中的大部分模型复杂性分析都是通过理论 Gflops 进行的。Nichol 和 Dhariwal 的开创性工作改进了扩散模型并分析了 U-Net 架构的可扩展性和 Gflop 特性。在本文中，我们专注于 Transformer 类型。

3. Diffusion Transformers

3.1. Preliminaries

3.1.1. 扩散公式

在介绍我们的架构之前，我们首先简单介绍扩散模型（DDPM）所需的一些基本概念。高斯扩散模型假设一个前向噪声过程，逐渐将噪声应用于实际数据 x0:q(xt|x0)=N(xt;α¯tx0,(1−α¯)I) x_0:q(x_t|x_0)=N(x_t;\sqrt{\bar\alpha_t}x_0,(1-\bar\alpha)I) ，其中常数 α¯\bar\alpha 是超参。通过应用重新参数化技巧，我们可以采样 xt=α¯tx0+1−α¯ϵt,ϵt∼N(0,I) x_t=\sqrt{\bar\alpha_t}x_0 + \sqrt{1-\bar\alpha}\epsilon_t, \epsilon_t\sim N(0,I)

未完待续

原网址: 访问
创建于: 2024-02-29 16:02:41
目录: default
标签: 无

未标明原创文章均为采集，版权归作者所有，转载无需和我联系，请注明原出处，南摩阿彌陀佛，知识，不只知道，要得到