相关文章推荐
精明的针织衫  ·  如何使用Gson ...·  1 月前    · 
近视的乌冬面  ·  XMLHttpRequest ...·  2 月前    · 
侠义非凡的沙滩裤  ·  Java ...·  1 年前    · 
精彩文章免费看

DiT:Transformer替换U-Net实现良好扩展的扩散模型

Scalable Diffusion Models with Transformers

原文:https://arxiv.org/abs/2212.09748

开源:https://github.com/facebookresearch/DiT  (> 630星)

paperswithcode今日热门开源

我们探索了基于transformer架构的一类新的扩散模型。我们训练图像的潜在扩散模型,将常用的U-Net主干替换为在潜在补丁上运行的transformer。我们通过Gflops测量的前向通过复杂度镜头分析了我们的扩散transformer(DiT)的可扩展性。我们发现,具有较高Gflop的DiT——通过增加transformer深度/宽度或增加输入令牌的数量——始终具有较低的FID。除了具有良好的可扩展性外,我们最大的DiT XL/2模型在类条件ImageNet 512x512和256x256基准上优于所有先前的扩散模型,在后者上实现了2.27的最先进FID。