随着SORA大火,SORA背后的模型也越来越引起大家的关注。SORA的技术进步根源于其采用的全新图像处理架构Diffusion Transformer架构。今天抽空review这篇文章。
基于 Transformer 架构,文章探索了一种新型扩散模型。该模型使用潜在扩散模型训练图像,以 Transformer 替代常用的 U-Net 主干网,对潜在补丁进行操作。通过以 Gflops 衡量的前向传递复杂度来分析扩散Transformer(DiT) 的可扩展性。结果显示,通过增加Transformer深度/宽度或增加输入令牌数量,具有较高 Gflops 的 DiT 始终具有较低的 FID。除了拥有良好的可扩展性之外,最大的 DiT-XL/2 模型在类条件 ImageNet 512×512 和 256×256 基准上的性能优于所有先前的扩散模型,在后者上实现了最先进的 FID 2.27。
_机器学习正在经历由 Transformer 驱动的复兴。_在过去的五年里,自然语言处理、视觉和其他几个领域的神经架构很大程度上已被 Transformer 所涵盖。然而,许多类别的图像级生成模型仍然抵制这一趋势——虽然 Transformer 在自回归模型中得到广泛使用,但在其他生成模型框架中的采用较少。例如,扩散模型一直处于图像级生成模型最新进展的前沿;然而,它们都采用卷积 U-Net 架构作为骨干网络的实际选择。
Ho 等人的开创性工作首次引入了扩散模型的 U-Net 主干。U-Net 最初在像素级自回归模型和条件 GAN 中取得了成功,它继承自 PixelCNN++,并进行了一些更改。该模型是卷积模型,主要由 ResNet 块组成。与标准 U-Net 相比,额外的空间自注意力块(Transformer 中的重要组成部分)以较低的分辨率散布。Dhariwal 和 Nichol 取消了 UNet 的几种架构选择,例如使用自适应归一化层为卷积层注入条件信息和通道计数。然而,Ho 等人的 UNet 的高层设计基本上保持完好。
这项工作旨在揭示扩散模型中架构选择的重要性,并为未来的生成式建模研究提供实证基准。结果表明,U-Net 归纳偏差对于扩散模型的性能并不是至关重要的,它们可以很容易地被标准设计(如 Transformer)所取代。因此,扩散模型有望从最近的架构统一趋势中受益——例如,通过继承其他领域的最佳实践和训练配方,以及保留可扩展性、鲁棒性和效率等有利特性。标准化的架构也将为跨领域研究开辟新的可能性。
本文重点研究了一种基于 Transformer 的新型扩散模型, Diffusion Transformer,简称 DiTs。DiTs 遵循了 Vision Transformer(ViT)的最佳实践,这些实践已经证明,在视觉识别方面,与传统的卷积网络相比,ViT 可以更有效地扩展。
更具体地说,我们研究了 Transformer 的扩展行为,包括网络复杂度与样本质量之间的关系。我们通过构建和基准测试潜伏扩散模型(LDMs)框架下的 DiT 设计空间,其中扩散模型在 VAE 的潜伏空间内进行训练,成功地用 Transformer 替换了 U-Net 骨干。我们进一步表明,DiTs 是可扩展的扩散模型架构:网络复杂度(以 Gflops 衡量)与样本质量(以 FID 衡量)之间存在很强的相关性。通过简单地扩展 DiT 并使用高容量的骨干(118.6 Gflops)训练 LDM,我们能够在 256×256 类条件 ImageNet 生成基准上实现 2.27 FID 的最先进结果。
Transformer 已取代了语言、视觉、强化学习和元学习等领域的特定架构。在语言领域,它们作为通用自回归模型和 ViT 显示出显著的扩展特性,模型规模、训练计算和数据都在不断增加。除了语言之外,Transformer 还经过训练可以自回归预测像素。它们还接受了离散代码本的训练,既是自回归模型,也是掩码生成模型;前者在高达 20B 参数时表现出出色的扩展行为。最后,Transformer 已在 DDPM 中用于合成非空间数据。在本文中,我们研究了将 Transformer 用作图像扩散模型骨干时的扩展特性。
扩散模型和基于分数的生成模型作为图像生成模型尤为成功。在过去两年中,DDPM 的改进主要是由于改进的采样技术,最值得注意的是无分类器指导,将扩散模型重新表述为预测噪声而不是像素,以及使用级联 DDPM 流水线,其中低分辨率基础扩散模型与上采样器并行训练。对于上面列出的所有扩散模型,卷积 U-Nets是骨干架构的事实选择。本文探索纯 Transformer。
在图像生成文献中评估架构复杂性时,使用参数量是相当常见的做法。但这种复杂性统计并不理想,因为它们不考虑例如图像分辨率等,会显着影响性能的参数。相反,本文中的大部分模型复杂性分析都是通过理论 Gflops 进行的。Nichol 和 Dhariwal 的开创性工作改进了扩散模型并分析了 U-Net 架构的可扩展性和 Gflop 特性。在本文中,我们专注于 Transformer 类型。
在介绍我们的架构之前,我们首先简单介绍扩散模型(DDPM)所需的一些基本概念。高斯扩散模型假设一个前向噪声过程,逐渐将噪声应用于实际数据 x0:q(xt|x0)=N(xt;α¯tx0,(1−α¯)I) x_0:q(x_t|x_0)=N(x_t;\sqrt{\bar\alpha_t}x_0,(1-\bar\alpha)I) ,其中常数 α¯\bar\alpha 是超参。通过应用重新参数化技巧,我们可以采样 xt=α¯tx0+1−α¯ϵt,ϵt∼N(0,I) x_t=\sqrt{\bar\alpha_t}x_0 + \sqrt{1-\bar\alpha}\epsilon_t, \epsilon_t\sim N(0,I)
未完待续
原网址: 访问
创建于: 2024-02-29 16:02:41
目录: default
标签: 无
未标明原创文章均为采集,版权归作者所有,转载无需和我联系,请注明原出处,南摩阿彌陀佛,知识,不只知道,要得到
java windows火焰图_mob64ca12ec8020的技术博客_51CTO博客 - 在windows下不可行,不知道作者是怎样搞的 监听SpringBoot 服务启动成功事件并打印信息_监听springboot启动完毕-CSDN博客 SpringBoot中就绪探针和存活探针_management.endpoint.health.probes.enabled-CSDN博客 u2u转换板 - 嘉立创EDA开源硬件平台 Spring Boot 项目的轻量级 HTTP 客户端 retrofit 框架,快来试试它!_Java精选-CSDN博客 手把手教你打造一套最牛的知识笔记管理系统! - 知乎 - 想法有重合-理论可参考 安宇雨 闲鱼 机械键盘 客制化 开贴记录 文本 linux 使用find命令查找包含某字符串的文件_beijihukk的博客-CSDN博客_find 查找字符串 ---- mac 也适用 安宇雨 打字音 记录集合 B站 bilibili 自行搭建 开坑 真正的客制化 安宇雨 黑苹果开坑 查找工具包maven pom 引用地 工具网站 Dantelis 介绍的玩轴入坑攻略 --- 关于轴的一些说法 --- 非官方 ---- 心得而已 --- 长期开坑更新 [本人问题][新开坑位]关于自动化测试的工具与平台应用 机械键盘 开团 网站记录 -- 能做一个收集的程序就好了 不过现在没时间 -- 信息大多是在群里发的 - 你要让垃圾佬 都去一个地方看难度也是很大的 精神支柱 [超级前台]sprinbboot maven superdesk-app 记录 [信息有用] [环境准备] [基本完成] [sebp/elk] 给已创建的Docker容器增加新的端口映射 - qq_30599553的博客 - CSDN博客 [正在研究] Elasticsearch, Logstash, Kibana (ELK) Docker image documentation elasticsearch centos 安装记录 及 启动手记 正式服务器 39 elasticsearch 问题合集 不断更新 6.1.1 | 6.5.1 两个版本 博客程序 - 测试 - bug记录 等等问题 laravel的启动过程解析 - lpfuture - 博客园 OAuth2 Server PHP 用 Laravel 搭建带 OAuth2 验证的 RESTful 服务 | Laravel China 社区 - 高品质的 Laravel 和 PHP 开发者社区 利用Laravel 搭建oauth2 API接口 附 Unauthenticated 解决办法 - 煮茶的博客 - SegmentFault 思否 使用 OAuth2-Server-php 搭建 OAuth2 Server - 午时的海 - 博客园 基于PHP构建OAuth 2.0 服务端 认证平台 - Endv - 博客园 Laravel 的 Artisan 命令行工具 Laravel 的文件系统和云存储功能集成 浅谈Chromium中的设计模式--终--Observer模式 浅谈Chromium中的设计模式--二--pre/post和Delegate模式 浅谈Chromium中的设计模式--一--Chromium中模块分层和进程模型 DeepMind 4 Hacking Yourself README.md update 20211011
Laravel China 简书 知乎 博客园 CSDN博客 开源中国 Go Further Ryan是菜鸟 | LNMP技术栈笔记 云栖社区-阿里云 Netflix技术博客 Techie Delight Linkedin技术博客 Dropbox技术博客 Facebook技术博客 淘宝中间件团队 美团技术博客 360技术博客 古巷博客 - 一个专注于分享的不正常博客 软件测试知识传播 - 测试窝 有赞技术团队 阮一峰 语雀 静觅丨崔庆才的个人博客 软件测试从业者综合能力提升 - isTester IBM Java 开发 使用开放 Java 生态系统开发现代应用程序 pengdai 一个强大的博主 HTML5资源教程 | 分享HTML5开发资源和开发教程 蘑菇博客 - 专注于技术分享的博客平台 个人博客-leapMie 流星007 CSDN博客 - 舍其小伙伴 稀土掘金 Go 技术论坛 | Golang / Go 语言中国知识社区
最新评论