DiT:Transformer替换U-Net实现良好扩展的扩散模型
Scalable Diffusion Models with Transformers
原文:https://arxiv.org/abs/2212.09748
开源:https://github.com/facebookresearch/DiT (> 630星)
paperswithcode今日热门开源
我们探索了基于transformer架构的一类新的扩散模型。我们训练图像的潜在扩散模型,将常用的U-Net主干替换为在潜在补丁上运行的transformer。我们通过Gflops测量的前向通过复杂度镜头分析了我们的扩散transformer(DiT)的可扩展性。我们发现,具有较高Gflop的DiT——通过增加transformer深度/宽度或增加输入令牌的数量——始终具有较低的FID。除了具有良好的可扩展性外,我们最大的DiT XL/2模型在类条件ImageNet 512x512和256x256基准上优于所有先前的扩散模型,在后者上实现了2.27的最先进FID。