Vision Transformer（ViT）PyTorch代码全解析

最近CV领域的Vision Transformer将在NLP领域的Transormer结果借鉴过来，屠杀了各大CV榜单。本文将根据最原始的 Vision Transformer论文，及其 PyTorch实现，将整个ViT的代码做一个全面的解析。

对原Transformer还不熟悉的读者可以看一下 Attention is All You Need原文，中文讲解推荐李宏毅老师的视频 YouTube ， BiliBili 个人觉得讲的很明白。

话不多说，直接开始。

下图是ViT的整体框架图，我们在解析代码时会参照此图：
在这里插入图片描述

以下是文中给出的符号公式，也是我们解析的重要参照：
$\mathbf{z}=[\mathbf{x}_{class};\mathbf{x}^1_p\mathbf{E},\mathbf{x}^2_p\mathbf{E},\dots;\mathbf{x}^N_p\mathbf{E}]+\mathbf{E}_{pos},\ \ \ \mathbf{E}\in\mathbb{R}^{(P^2\cdot C)\times D},\mathbf{E}_{pos}\in \mathbb{R}^{(N+1)\times D} \ \ \ \ \ \ \ \ \ \ \ \ \ (1)$

\mathbf{z'_\ell}=MSA(LN(\mathbf{z}_{\ell-1}))+\mathbf{z}_{\ell-1}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (2)

\mathbf{z'_\ell}=MSA(LN(\mathbf{z}_{\ell-1}))+\mathbf{z}_{\ell-1}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (2)

推荐文章

不拘小节的酸菜鱼 · python - Spark AttributeError: 'DataFrame' object has no attribute 'weekofyear' - Stack Overflow

2 年前

一身肌肉的拖把 · 禁用chrome的同源策略_chrome禁用同源策略_会编程的羽流云的博客-CSDN博客

2 年前

彷徨的香菇 · 百分制转换为等级制（Centesimal-grade to Letter-grade）利⽤switch语句编写⼀个程序，把⽤数字表示的成绩转化为字⺟表示的等级。_实名吃香菜的博客-CSDN博客

2 年前

不拘小节的单车 · 基于C#实现Windows服务的方法详解_C#教程_脚本之家

2 年前

Vision Transformer（ViT）PyTorch代码全解析

导入需要的包

pair函数

PreNorm

Attention

FeedForward