谷歌新作ViT-22B:将视觉Transformer扩展到220亿参数

谷歌新作ViT-22B:将视觉Transformer扩展到220亿参数

一句话总结

最大的视觉Transformer模型来了!ViT-22B 包含220亿参数,并提出高效稳定训练方法,还进行了各种实验(分类、分割等),显示出随着规模的增加而性能的提高。

点击关注 @CVer计算机视觉 ,第一时间看到最优质、最前沿的CV、AI工作~

点击进入—> Transformer微信技术交流群

ViT-22B

Scaling Vision Transformers to 22 Billion Parameters

单位:谷歌(42位作者,含ViT等代表作大佬)

论文: arxiv.org/abs/2302.0544

Transformer的扩展推动了语言模型的突破性能力。目前,最大的大型语言模型(LLM)包含超过100B的参数。视觉Transformer(ViT)已经将相同的架构引入到图像和视频建模中,但这些架构尚未成功扩展到几乎相同的程度;最大的ViT包含4B个参数(Chen等人,2022)。

我们提出了一种22B参数ViT(ViT-22B)的高效稳定训练方法,并对所得模型进行了各种实验。

算法细节

实验结果

当对下游任务进行评估时(通常使用冻结特征的轻量级线性模型),ViT-22B显示出随着规模的增加性能的提高。我们进一步观察到规模的其他有趣的好处,包括公平性和性能之间的改进权衡,在形状/纹理偏差方面与人类视觉感知的最新对齐,以及改进的鲁棒性。ViT-22B展示了“类似LLM”的视觉扩展潜力,并提供了实现这一目标的关键步骤。

点击进入—> Transformer微信技术交流群

CVer-Transformer交流群

建了CVer-Transformer交流群!想要进Transformer学习交流群的同学,可以直接加微信号: CVer222 。加的时候备注一下: Transformer+学校/公司+昵称+知乎 ,即可。然后就可以拉你进群了。

推荐阅读

ICLR 2023 | 斯坦福提出DDM2:基于生成扩散模型的自监督扩散MRI去噪

涨点神器!谷歌大脑提出:Dual PatchNorm

ICLR 2023 高分论文!ImageNet上的3D生成

BLIP-2:使用冻结图像编码器和大型语言模型的语言-图像预训练

MedSegDiff-V2:基于Transformer和扩散模型的医学图像分割

涨点显著!FAIR提出CutLER:用于无监督目标检测和实例分割的切割和学习

超越YOLOv7、v8!YOLOv6 v3.0 正式发布

YOLOv8来了!YOLOv5官方团队出品!

ConvNeXt V2来了!使用MAE共同设计和扩展ConvNet

替换U-Net!DiT:基于Transformer的可扩展扩散模型

扩散模型在医学图像上击败GAN

NMS(非极大值抑制)的反击!DETA:基于Transformer的新目标检测器

CCF论文列表(2022拟定)大更新!MICCAI空降B类!PRCV空降C类!ICLR继续陪跑...

DiffusionDet:第一个用于目标检测的扩散模型

65.4 AP刷新COCO目标检测新记录!InternImage:探索具有可变形卷积的大规模视觉基础模型

Sea和北大提出新优化器Adan:深度模型都能用!训练ViT和MAE减少一半计算量!

YOLOv4团队打造YOLOv7!最先进的实时目标检测网络来了!

FAIR提出ConvNeXt:2020 年代的卷积网络

清华提出:最新的计算机视觉注意力机制(Attention)综述!

发布于 2023-02-13 22:06 ・IP 属地上海

文章被以下专栏收录