在训练自己的模型时常常出现显存不足等问题,这个时候我们常用的方法就是调参。一般常用的方法有以下几点:

  1. 模型压缩
  2. 网络参数调整, 比如减小训练图像大小,降低FC output个数,使用小的conv kernel size等。
  3. 深度学习框架调整
  4. 减层

但是对于既定网络,我们减小训练图像大小或者改变batchsize大小都会影响模型的性能,这点在目标检测和语义分割中反应比较明显。那么我们要做的是在不改变网络性能的情况下,尽量的压缩模型,空出足够的显存进行GPU加速。

GPU基础知识

我们利用gpustat工具包可以看到关于GPU的相关信息:

pip install gpustat

直接即可安装,gpustat基于 nvidia-smi ,可以提供更美观简洁的展示,结合watch命令,可以 动态实时监控 GPU的使用情况。

watch --color -n1 gpustat -cpu

GPU计算单元 类似于CPU中的核,用来进行数值计算。衡量计算量的单位是flop: the number of floating-point multiplication-adds ,浮点数先乘后加算一个flop。计算能力越强大,速度越快。衡量计算能力的单位是flops: 每秒能执行的flop数量

1Byte = 8 bit
1K = 1024 Byte
1M = 1024 K
1G = 1024 M
1T = 1024 G
10 K = 10*1024 Byte

卷积神经网络参数

在图像处理中,往往把图像表示为像素的向量,比如一个1000×1000的图像,可以表示为一个1000000的向量。如果隐含层数目与输入层一样,即也是1000000时,那么输入层到隐含层的参数数据为1000000×1000000=10^12,这样就太多了,基本没法训练。卷积神经网络通过CNN中的局部连接(Sparse Connectivity)和权值共享(Shared Weights)来减少参数。

神经网络模型占用的显存包括:

  • 模型自身的参数
  • 模型的输出

举例来说,对于如下图所示的一个全连接网络(不考虑偏置项b)

模型的显存占用包括:

  • 参数:二维数组 W
  • 模型的输出: 二维数组 Y
  • 其他

输入X可以看成是上一层的输出,因此把它的显存占用归于上一层。

参数的显存占用

只有有参数的层,才会有显存占用。这部份的显存占用和 输入无关 ,模型加载完成之后就会占用。

有参数的层主要包括:

  • 卷积
  • 全连接
  • BatchNorm
  • Embedding层
  • ... ...

无参数的层

  • 多数的激活层(Sigmoid/ReLU)
  • 池化层
  • Dropout
  • ... ...

更具体的来说,模型的参数数目(这里均不考虑偏置项b)为:

  • Linear(M->N): 参数数目:M×N
  • Conv2d(Cin, Cout, K): 参数数目:Cin × Cout × K × K
  • BatchNorm(N): 参数数目: 2N
  • Embedding(N,W): 参数数目: N × W

参数占用显存 = 参数数目×n

n = 4 :float32

n = 2 : float16

n = 8 : double64

在PyTorch中,当你执行完 model=MyGreatModel().cuda() 之后就会占用相应的显存,占用的显存大小基本与上述分析的显存差不多( 会稍大一些,因为其它开销 )。

梯度与动量的显存占用

举例来说, 优化器如果是SGD:

可以看出来,除了保存W之外还要保存对应的梯度,

因此显存占用等于参数占用的显存x2,

如果是带Momentum-SGD

这时候还需要保存动量, 因此显存x3

如果是Adam优化器,动量占用的显存更多,显存x4

总结一下,模型中 与输入无关的显存占用 包括:

  • 参数 W
  • 梯度 dW (一般与参数一样)
  • 优化器的 动量 (普通SGD没有动量,momentum-SGD动量与梯度一样,Adam优化器动量的数量是梯度的两倍)

输入输出的显存占用

这部份的显存主要看输出的feature map 的形状。

比如卷积的输入输出满足以下关系:

据此可以计算出每一层输出的Tensor的形状,然后就能计算出相应的显存占用。

模型输出的显存占用,总结如下:

  • 需要计算每一层的feature map的形状(多维数组的形状)
  • 需要保存输出对应的梯度用以反向传播(链式法则)
  • 显存占用与 batch size 成正比
  • 模型输出不需要存储相应的动量信息。

深度学习中神经网络的显存占用,我们可以得到如下公式:

显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用

可以看出显存不是和batch-size简单的成正比,尤其是模型自身比较复杂的情况下:比如全连接很大,Embedding层很大

另外需要注意:

  • 输入(数据,图片)一般不需要计算梯度
  • 神经网络的每一层输入输出都需要保存下来,用来反向传播,但是在某些特殊的情况下,我们可以不要保存输入。比如ReLU,在PyTorch中,使用 nn.ReLU(inplace = True) 能将激活函数ReLU的输出直接覆盖保存于模型的输入之中,节省不少显存。感兴趣的读者可以思考一下,这时候是如何反向传播的(提示:y=relu(x) -> dx = dy.copy();dx[y<=0]=0

在通过卷积获得了特征 (features) 之后,下一步我们希望利用这些特征去做分类。理论上讲,人们可以用所有提取得到的特征去训练分类器,例如 softmax 分类器,但这样做面临计算量的挑战。例如:对于一个 96X96 像素的图像,假设我们已经学习得到了400个定义在8X8输入上的特征,每一个特征和图像卷积都会得到一个 (96 − 8 + 1) × (96 − 8 + 1) = 7921 维的卷积特征,由于有 400 个特征,所以每个样例 (example) 都会得到一个 7921 × 400 = 3,168,400 维的卷积特征向量。学习一个拥有超过 3 百万特征输入的分类器十分不便,并且容易出现过拟合 (over-fitting)。
为了解决这个问题,首先回忆一下,我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性,这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此,为了描述大的图像,一个很自然的想法就是对不同位置的特征进行聚合统计,例如,人们可以计算图像一个区域上的某个特定特征的平均值 (或最大值)。这些概要统计特征不仅具有低得多的维度 (相比使用所有提取得到的特征),同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化 (pooling),有时也称为平均池化或者最大池化 (取决于计算池化的方法)。

Convolution层:

就是卷积层,是卷积神经网络(CNN)的核心层。
层类型:Convolution
lr_mult: 学习率的系数,最终的学习率是这个数乘以solver.prototxt配置文件中的base_lr。如果有两个lr_mult, 则第一个表示权值的学习率,第二个表示偏置项的学习率。一般偏置项的学习率是权值学习率的两倍。
在后面的convolution_param中,我们可以设定卷积层的特有参数。
必须设置的参数:
num_output: 卷积核(filter)的个数
kernel_size: 卷积核的大小。如果卷积核的长和宽不等,需要用kernel_h和kernel_w分别设定
其它参数:
stride: 卷积核的步长,默认为1。也可以用stride_h和stride_w来设置。
pad: 扩充边缘,默认为0,不扩充。 扩充的时候是左右、上下对称的,比如卷积核的大小为5*5,那么pad设置为2,则四个边缘都扩充2个像素,即宽度和高度都扩充了4个像素,这样卷积运算之后的特征图就不会变小。也可以通过pad_h和pad_w来分别设定。
weight_filler: 权值初始化。 默认为“constant",值全为0,很多时候我们用"xavier"算法来进行初始化,也可以设置为”gaussian"
bias_filler: 偏置项的初始化。一般设置为"constant",值全为0。
bias_term: 是否开启偏置项,默认为true, 开启
group: 分组,默认为1组。如果大于1,我们限制卷积的连接操作在一个子集内。如果我们根据图像的通道来分组,那么第i个输出分组只能与第i个输入分组进行连接。
输入:n*c0*w0*h0
输出:n*c1*w1*h1
其中,c1就是参数中的num_output,生成的特征图个数
w1=(w0+2*pad-kernel_size)/stride+1;
h1=(h0+2*pad-kernel_size)/stride+1;
如果设置stride为1,前后两次卷积部分存在重叠。如果设置pad=(kernel_size-1)/2,则运算后,宽度和高度不变。


Pooling层
也叫池化层,为了减少运算量和数据维度而设置的一种层。
层类型:Pooling
必须设置的参数:
kernel_size: 池化的核大小。也可以用kernel_h和kernel_w分别设定。
其它参数:
pool: 池化方法,默认为MAX。目前可用的方法有MAX, AVE, 或STOCHASTIC
pad: 和卷积层的pad的一样,进行边缘扩充。默认为0
stride: 池化的步长,默认为1。一般我们设置为2,即不重叠。也可以用stride_h和stride_w来设置。

pooling层的运算方法基本是和卷积层是一样的。
输入:n*c*w0*h0
输出:n*c*w1*h1
和卷积层的区别就是其中的c保持不变
w1=(w0+2*pad-kernel_size)/stride+1;
h1=(h0+2*pad-kernel_size)/stride+1;
如果设置stride为2,前后两次卷积部分不重叠。100*100的特征图池化后,变成50*50.

节省显存的方法

在深度学习中,一般占用显存最多的是卷积等层的输出,模型参数占用的显存相对较少,而且不太好优化。

节省显存一般有如下方法:

  • 降低batch-size
  • 下采样(NCHW -> (1/4)*NCHW)
  • 减少全连接层(一般只留最后一层分类用的全连接层)

减少卷积层的计算量

今年谷歌提出的MobileNet,利用了一种被称为DepthWise Convolution的技术,将神经网络运行速度提升许多,它的核心思想就是把一个卷积操作拆分成两个相对简单的操作的组合。如图所示, 左边是原始卷积操作,右边是两个特殊而又简单的卷积操作的组合(上面类似于池化的操作,但是有权重,下面类似于全连接操作)。

img Depthwise Convolution

这种操作使得:

  • 显存占用变多(每一步的输出都要保存)
  • 计算量变少了许多,变成原来的( \frac{1}{C_{out}} + \frac{1}{k^{2}} )(一般为原来的10-15%)

常用模型 显存/计算复杂度/准确率

去年一篇论文( https://arxiv.org/abs/1605.07678 )总结了当时常用模型的各项指标,横座标是计算复杂度(越往右越慢,越耗时),纵座标是准确率(越高越好),圆的面积是参数数量(不是显存占用),参数量越多,保存的模型文件越大。左上角我画了一个红色小圆,那是最理想的模型:快,准确率高,显存占用小。

  • 时间更宝贵,尽可能使模型变快(减少flop)
  • 显存占用不是和batch size简单成正比,模型自身的参数及其延伸出来的数据也要占据显存
  • batch size越大,速度未必越快。在你充分利用计算资源的时候,加大batch size在速度上的提升很有限

尤其是batch-size,假定GPU处理单元已经充分利用的情况下:

  • 增大batch size能增大速度,但是很有限(主要是并行计算的优化)
  • 增大batch size能减缓梯度震荡,需要更少的迭代优化次数,收敛的更快,但是每次迭代耗时更长。
  • 增大batch size使得一个epoch所能进行的优化次数变少,收敛可能变慢,从而需要更多时间才能收敛(比如batch_size 变成全部样本数目)。
目录前言:GPU基础知识卷积神经网络参数参数的显存占用梯度与动量的显存占用输入输出的显存占用节省显存的方法减少卷积层的计算量常用模型 显存/计算复杂度/准确率建议前言:在训练自己的模型时常常出现显存不足等问题,这个时候我们常用的方法就是调参。一般常用的方法有以下几点:模型压缩 网络参数调整,比如减小训练图像大小,降低FC output个数,使...
1. 卷积 神经网络基础 从本节讲解才知道, 卷积 神经网络中的Conv2d函数中,实现的滤波器与图像element-wise相乘并累加其实是互相关运算,二维互相关的解释如下: 二维互相关(cross-correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称为 卷积 核或过滤器(filter)。 卷积 核的尺寸通常小于输入数组, 卷积 核在输入数组上滑动,在每个位置上, 卷积 核与该位置处的输入子数组按元素相乘并求和,得到输出数组中相应位置的元素。图1展示了一个互相关运算的例子,阴影部分分别是输入的第一个计算区域、核数组以及对应的输出。 而 卷积 运算
「VGG Network」,牛津大学VGG实验室设计的架构,将AlexNet的8层提高到了19层,真正让深度这个词得以充分体现。 从VGG开始,人们不再使用太大的 卷积 核,取而代之的是若干个小 卷积 核的组合。 比如,3个步长为1的3X3 卷积 ...
【深度学习】参数量、 模型 大小 显存 对于一个深度学习神经网络来说,其通常包含很多 卷积 层,用于不断提取目标的特征,或对目标进行最终定位或者分类。 1 数据存储精度与存储空间 在深度学习神经网络中,最常见的数据格式是float32,占4个字节(Byte)。类似地,float16,占2个字节。1024个字节为1KB,1024x1024个字节为1MB。那么存储10000个参数需要的内存 大小 为10000x4 Bytes,约为39KB。存储100万个参数需要的内存 大小 为39x100/......
FLOP:表示计算量,比如一次乘法或加法运算。FLOPs为FLOP单位,因此1 MACC=2 FLOPs 我们通常统计计算量使用FLOPs(浮点运算数),但是这里我们使用MACCs或乘法累加数。 理论计算量用FLOPs表示,关系到算法速度,大 模型 的单位通常为G,小 模型 通道为M。注意两点: 理论计算量通常只考虑只考虑CONV和FC... torch.FatalError: cuda runtime error (2) : out of memory at /opt/conda/conda-bld/pytorch_1524590031827/work/aten/src/THC/generic/THCStorage.cu:58 想必这是所有炼丹师们最不想看到的错误,没有之一。 OUT OF MEMORY,显然是 显存 装不下你那么多的 模型 权重还有中间变量,然后程序奔溃了。怎么办,其实办法有很多,及 conv1 = nn.Conv2d(3, 16, kernel_size=3, padding=1) pool1 = nn.MaxPool2d(2) conv2 = nn.Conv2d(16, 8, kernel_size=3, padding=1) pool2 = nn.MaxPool2d(2) output1 = conv1(img.unsqueeze( N = (W − F + 2P )/S+1 输出图片 大小 为 N×N 以resnet50为例,输入为[1,3,224,224],其中1为batchsize,3为通道数,224为height和width。 经过第一层 卷积 后,其 大小 为[1,64,112,112] in_channels= 3//输入通道 out_channels= 64 //输出通道 nn.Conv2d(in_ 优化网络结构,或者改用深度可分离 卷积 代替常规 卷积 核,较小参数数量 选择更小的数据类型 一般默认情况下, 整个网络中采用的是32位的浮点数,如果切换到 16位的浮点数,其 显存 占用量将接近呈倍数递减 做梯度累积,将loss划分为n,即loss = loss / n 当执行完n步再进行梯度更新 https://blog.csdn.net/zhuiqiuk/article/d...
写在前面:以此记录关于 模型 显存 和参数量的一些理解和计算。 参数的 显存 占用:只有有参数的层,才会有 显存 占用。这部分的 显存 占用和输入无关, 模型 加载完成之后就会占用。 有参数的层主要包括: 卷积 、全连接、BatchNorm、Embedding等等 无参数的层主要包括:多数的激活层(Sigmoid/ReLU)、池化层、Dropout等等 具体来说, 模型 参数数目(不考虑偏置b): Linear(M->N):M×N Conv2d(Cin,Cout,K):Cin×Cout×k×k BatchNorm(N):2
caffe中的layer层代码比较多,各种抽象。layer这个类可以说是里面最终的一个基本类了,深度网络呢就是一层一层的layer,相互之间通过blob传输数据连接起来。 我们先看一张图: 首先layer必须要实现一个forward function,前递函数当然功能可以自己定义啦,在forward中呢他会从input也就是Layer的bottom,对了caffe里面网络的前一层是叫b
深度学习 模型 卷积 神经网络(CNN)是一种广泛应用于图像识别、自然语言处理等领域的深度学习 模型 。下面我们以一个图像分类的例子来介绍如何使用CNN。 假设我们有一个包含10个不同种类的图像数据集。我们的目标是根据这些图像将它们分类到正确的类别中。 首先,我们需要导入必要的库和数据集。在本例中,我们将使用Keras库,它是一个高级神经网络API,可用于快速构建和训练深度神经网络。 ```python import numpy as np import keras from keras.models import Sequential from keras.layers import Dense, Dropout, Flatten from keras.layers import Conv2D, MaxPooling2D from keras.datasets import mnist # 导入数据集 (x_train, y_train), (x_test, y_test) = mnist.load_data() 在导入数据集之后,我们需要对数据进行预处理。首先,我们将将输入图像调整为相同的 大小 ,例如28x28像素。然后,我们将将像素值缩放到0到1之间,这将有助于 模型 更快地收敛。 ```python # 图像 大小 调整为28x28像素,并将其转换为浮点数 x_train = x_train.reshape(x_train.shape[0], 28, 28, 1) x_test = x_test.reshape(x_test.shape[0], 28, 28, 1) input_shape = (28, 28, 1) # 将像素值缩放到0到1之间 x_train = x_train.astype('float32') / 255 x_test = x_test.astype('float32') / 255 接下来,我们将构建CNN 模型 。在本例中,我们将使用两个 卷积 层和两个池化层。每个 卷积 层都将包含一些 卷积 滤波器,用于检测输入图像中的特征。池化层将减小输入图像的 大小 ,并帮助减少过拟合。最后,我们将使用全连接层将输出与标签进行比较,并计算 模型 的损失和精度。 ```python # 构建CNN 模型 model = Sequential() model.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape)) model.add(MaxPooling2D(pool_size=(2, 2))) model.add(Conv2D(64, kernel_size=(3, 3), activation='relu')) model.add(MaxPooling2D(pool_size=(2, 2))) model.add(Flatten()) model.add(Dense(128, activation='relu')) model.add(Dropout(0.5)) model.add(Dense(10, activation='softmax')) # 编译 模型 model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy']) 最后,我们将使用训练数据对 模型 进行训练,并使用测试数据对其进行评估。 ```python # 将标签转换为one-hot编码 y_train = keras.utils.to_categorical(y_train, 10) y_test = keras.utils.to_categorical(y_test, 10) # 训练 模型 model.fit(x_train, y_train, batch_size=128, epochs=10, validation_data=(x_test, y_test)) # 评估 模型 score = model.evaluate(x_test, y_test, verbose=0) print('Test loss:', score[0]) print('Test accuracy:', score[1]) 这就是一个简单的CNN 模型 的例子。通过对数据进行预处理、构建CNN 模型 并使用训练数据进行训练,我们可以有效地对图像进行分类。 ### 回答2: 学习深度学习 模型 卷积 神经网络(CNN)的一个具体例子可以是使用CNN进行图像分类任务。以下是一个简单的用CNN进行猫狗图像分类的例子: 1. 数据准备:收集大量带有标签的猫和狗的图像数据集,并进行划分为训练集和验证集。 2. 数据预处理:对图像进行预处理,如 大小 归一化、颜色通道转换等,以便输入到CNN 模型 中。 3. 构建CNN 模型 :使用Python编程语言和深度学习框架,如Keras或PyTorch,构建一个适合图像分类的CNN 模型 。 4. 模型 训练:使用训练集的图像和对应的标签数据,训练CNN 模型 。通过反向传播优化 模型 的权重和偏差,使其逐渐减小损失函数。 5. 模型 调优:根据 模型 在验证集上的表现进行 模型 调优,如调整层数、 卷积 大小 、池化操作等,以提高 模型 的准确性和鲁棒性。 6. 模型 评估:使用测试集的图像和标签数据,评估CNN 模型 在猫狗图像分类任务上的性能,如准确率、召回率、精确率等。 7. 预测新图像:使用已训练好的CNN 模型 ,对新输入的图像进行预测,判断是猫还是狗。 通过以上步骤,可以建立一个基本的CNN 模型 来进行猫狗图像分类。当然,在实际应用中,还有很多可以改进的地方,如数据增强、使用预训练的 模型 、引入正则化技术等。这个例子只是一个简单的介绍,深入学习CNN还需要更多的实践和研究。 ### 回答3: 深入学习 模型 卷积 神经网络(CNN)是一种经常用于图像识别和计算机视觉任务的机器学习算法。这个网络的架构包含了多层 卷积 层和池化层,以及全连接层。下面是一个具体的例子,展示了如何构建和训练一个基本的CNN 模型 来识别手写数字: 1. 数据准备:首先,我们需要获取一个手写数字的数据集,比如MNIST数据集。该数据集包含了60000个训练样本和10000个测试样本,每个样本都是一个28x28的灰度图像。 2. 网络架构定义:接下来,我们定义CNN 模型 的架构。我们可以选择一个包含 卷积 层、池化层和全连接层的简单架构。一个典型的例子是:输入图像 -> 卷积 层 -> 池化层 -> 卷积 层 -> 池化层 -> 全连接层 -> 输出层。 3. 模型 训练:我们将训练集输入 模型 ,并通过反向传播算法进行权重更新。在训练过程中,我们可以使用基于梯度下降的优化算法,如Adam或SGD,来优化 模型 的性能。此外,还可以采用数据增强技术,如旋转、平移或缩放图像,来增加训练集的多样性。 4. 模型 评估:在训练完 模型 之后,我们使用测试集对其进行评估。通过计算 模型 在测试集上的准确率、精度、召回率等指标,来评估其在手写数字识别任务上的性能。 5. 模型 优化:如果 模型 的性能还不够理想,我们可以通过调整网络架构、增加 模型 复杂度、修改超参数等方式来进行优化。此外,还可以尝试其他常用的深度学习技术,如Dropout、Batch Normalization等。 总而言之,深入学习 模型 卷积 神经网络(CNN)是一种强大的图像识别算法。通过构建合适的网络架构、训练和优化 模型 ,我们可以获得较高的准确率和性能。以上是一个简单的例子,实际应用中还有更多的技巧和方法可供尝试和探索。 豆荚1234: File "pandas\_libs\index.pyx", line 138, in pandas._libs.index.IndexEngine.get_loc File "pandas\_libs\index.pyx", line 165, in pandas._libs.index.IndexEngine.get_loc File "pandas\_libs\hashtable_class_helper.pxi", line 5745, in pandas._libs.hashtable.PyObjectHashTable.get_item File "pandas\_libs\hashtable_class_helper.pxi", line 5753, in pandas._libs.hashtable.PyObjectHashTable.get_item KeyError: 'data' 博主请问这是咋了 CANet: Class-Agnostic Segmentation Networks with Iterative Refinement and Attentive...(论文解读十九) 智能小白wsj: 您好,代码您跑出来了嘛? 史上最全语义分割综述(FCN,UNet,SegNet,Deeplab,ASPP...) qq_57738916: 请问有markdown文件分享吗? 利用URL下载json文件中包含的数据集 ㋡星星长安: 哥我这里有一个从JSON中下载网页中数据的问题,可以请教哥一下嘛?