两大免费云端 GPU：Colab 和 Kaggle，爱学习的你究竟该如何选择？

相关文章推荐

有情有义的小马驹 · 视频去哪了呢？_哔哩哔哩_bilibili· 1 年前 ·

坚强的大蒜 · python-地图可视化组件folium_p ...· 1 年前 ·

才高八斗的碗 · 《天乩》开播好评不断 ...· 2 年前 ·

旅行中的移动电源 · js 拦截全局 ajax ...· 2 年前 ·

博学的领带 · 2012年度FIRST青年电影展曝奖项名单_ ...· 2 年前 ·

Kaggle 和 Colab 是两个非常相似的产品，它们都具有如下特性：

提供免费的GPU

在浏览器中使用Jupyter进行交互——但是它们都有自己独特的风格

旨在促进机器学习的协作

都是谷歌的产品

不是十全十美，但是在多数场景下都适用，尤其是在入门深度学习的时候

官方文档对硬件规格的描述较为简略

最后一项是本文研究的重点，但不幸的是，Kaggle和Colab都不提供对使用环境的详细描述，而且官方文档（https://www.kaggle.com/docs/kernels#technical-specifications）往往很过时，跟不上平台硬件更新的速度。除此之外，平台IDE的小控件虽然提供了一些信息，但是这往往不是我们真正想要的。接下来，本文展示常用的profiler命令，该命令可以查看平台环境的信息。

在正式开始之前，我们得先了解一些GPU的背景知识。

什么是GPU？

GPU是图形处理单元的简称，最初GPU是为加速视频游戏的图形所开发的专用芯片，它们能够快速的完成大量的矩阵运算。该特性也使得GPU在深度学习领域崭露头角，有趣的是，出于相同的原因，GPU也是挖掘加密货币的首选工具。

Nvidia P100 GPU

为什么要使用GPU?

使用大显存的GPU来训练深度学习网络，比单纯用CPU来训练要快得多。想象一下，使用GPU能够在十几分钟或者几个小时内，获得所训练网络的反馈信息，而使用CPU则要花费数天或者数周的时间，GPU简直是棒呆了。

硬件规格

2019年三月初，kaggle将它的GPU芯片从Nvidia Tesla K80升级到了Nvida Tesla P100，然而Colab还在用K80。有关Nvidia 芯片类型的讨论，可以参见这篇文章（https://towardsdatascience.com/maximize-your-gpu-dollars-a9133f4e546a）。

有很多不同方法可以查看硬件的信息，两个比较常用的命令是!nvidia-smi和 !cat/proc/cpuinfo，分别用于查看GPU和CPU的信息。即使你想用GPU来训练模型，CPU也是不必可少的，因此了解CPU的信息是必不可少的。

下图所示为Kaggle和Colab的硬件配置信息，更多内容可以参考谷歌官方文档（https://docs.google.com/spreadsheets/d/1YBNlI9QxQTiPBOhsSyNg6EOO9LH2M3zF7ar88SeFQRk/edit?usp=sharing）。

Kaggle Sidebar

上图显示的是Kaggle的内核和Colab Notebook中的硬件规格信息，请注意，在开始前一定要确保开启了GPU的功能。

还有一点值得注意，使用命令行查看GPU的硬件规格时，系统返回值的单位是Mebibytes，该单位和Megabytes（兆字节）相似但并不等同。通过谷歌搜索相应信息，可以将Mebibytes转化为Megabytes。

Kaggle 的widget（小部件）显示，实际使用的磁盘空间比前文调研的要小得多，这是因为，无论理论上的磁盘总量是多少，Kaggle都会限制实际能够使用的磁盘空间。

在官方文档中Kaggle声明，用户拥有9个小时的使用时间，然而，对于每个会话，内核环境最多只会在窗口上显示6个小时。值得注意的是，重新启动内核会重新启动时钟。此外，如果用户在60分钟内没有任何操作，Kaggle会将会话重启。

Colab为用户提供12小时的执行时间，但是如果闲置时间超过90分钟，Colab就会将你踢掉。

接下来就要进入本文的重点了：训练一个深度学习网络，到底会花费多少时间。

计算机视觉任务下的速度比较

本文用一个图像分类的任务来比较Kaggle和Colab的计算性能。该任务的目标是构建一个深度学习模型，对猫狗的图像进行分类。数据集包含25000张图像，猫和狗的样本数是均衡的。将数据集分为两部分，其中23000张图像用于训练，另外2000张用于验证。数据集链接见此（https://www.kaggle.com/lingjin525/dogs-and-cats-fastai）。

Cat and dog images from the dataset

本文用FastAI库构建了一个卷积神经网络，并以ResNet30为基础运用迁移学习训练该模型。模型的训练使用了以下几个技巧，分别是数据增广和学习率退火。在模型的测试阶段，本文使用测试时间增广技术来构建测试集。本节的代码改编自FastAI的示例（https://github.com/fastai/fastai/blob/master/examples/dogs_cats.ipynb）。

代码分别在Kaggle和Colab上的实施。Batch size 设为16，FastAI的版本是1.0.48。使用FastAI的内置分析器，统计训练和测试的总时间，两平台所用的时间如下。

在两个平台中，模型的验证精度都超过了99%，三次迭代的时间在Kaggle中是11:17分钟，而Colab中为19:54分钟。Kaggle的运行环境性能，从速度上看，比Colab要快40%。

Batch Size

在Kaggle中，我们需要将batch size从64降低到16，才能使模型成功进行训练。如果batch size过大，会导致运行错误，该错误似乎是由于Docker容器中的共享内存设置得太低才引起的。有趣的是，作者在2018年底向Colab提出了这个问题（https://github.com/googlecolab/colabtools/issues/329），Colab在一周内便修复了这个问题。然而，截止2019年3月中旬，Kaggle依然存在该问题。

接下来，我们将Colab中的batch size改为256，对模型进行两次迭代训练。上述的改变导致平均运行时间变成了18:38分钟。将batch size改为64，同样进行两次迭代训练，此时得到的平均运行时间为18:14分钟。这表示，当batch size大于16的时候，Colab能够缩减运行的时间。

尽管如此，对于本节中的任务而言，较小的batch size并不是一个值得深究的大问题，有关参数设置的讨论，可以参见这篇文章（https://arxiv.org/abs/1804.07612）。

当我将Colab上的batch size设为256，然后开始训练模型时，Colab抛出了一个警告，其中写道：我正在使用的GPU具有11.17GB的显存。具体如下图所示。

这个警告非常棒，但是基于前文的分析，我们已经了解了Gibibytes和Gigabytes（https://www.gbmb.org/gib-to-gb）之间的区别。前文中讲到，Colab有11.17 Gibibytes（12 GB）的显存，这显然和警告中说的11.17GB矛盾。尽管如此，如果Colab提示你超出内存了，那就是超出内存了。因此batch size设为256，可能就是该任务下Colab的极限了。

混合精度训练

接下来，我们使用了混合精度训练，该训练方式能够有效地降低训练时间。混合精度训练在某些可能的情况下，会使用16位精度的数值代替32位的数值，来进行计算。Nvidia声称使用16位精度，可以使P100的吞吐量翻倍。

有关混合精度FastAI模型的介绍可以参见这篇文章（https://docs.fast.ai/callbacks.fp16.html）。请注意，在使用测试时间增广进行预测之前，我们需要将FastAI学习器对象设置为32位模式，这是因为torch.stack暂时不支持半精度。

通过在Colab上使用混合精度进行训练，在batch size 为16的情况下，平均运行时间为16:37分钟。显然，我们成功的缩减了运行时间。

然而，在Kaggle上实施混合精度训练，总的运行时间却增加了一分半，达到了12:47分钟。我们并没有改变硬件规格，而且得到的验证精度都达到了99%以上，这就很有趣了。

通过调查发现，Kaggle的默认包中的torch和torchvision的版本都很老，将它们的版本更新到和Colab上的一样后，Kaggle的运行时间并没有改变。但是这一个发现表明，Colab上默认包的版本比Kaggle更新的要快。

前文提到的硬件差异，似乎并不是导致Kaggle混合精度性能不佳的原因。那么软件差异似乎是答案，我们观察到，两平台唯一的软件差异就是，Kaggle使用CUDA 9.2.148 和 cuDNN 7.4.1，而Colab 使用CUDA 10.0.130 和 cuDNN 7.5.0。

CUDA是Nvidia的API，可以直接访问GPU的虚拟指令集。cuDNN是Nvidia基于CUDA的深度学习原型库。根据Nvidia的这篇文章，Kaggle的软件应该可以提高P100的速度。但是，正如cuDNN更改说明（https://docs.nvidia.com/deeplearning/sdk/cudnn-release-notes/rel_750.html#rel_750）中所示，阻止加速的bug是定期排查和修复的，那么kaggle在混合精度训练上表现不佳，可能是因为bug修复不及时所导致的吧。

既然如此，我们只好等待Kaggle升级CUDA和cuDNN，看看混合精度训练是否会变得更快。如果使用Kaggle，还是推荐你采用混合精度训练（虽然速度并不会得到提升）。如果使用Colab，当然采用混合精度训练更佳，但是要注意batch size不要设置得太大。

优缺点对比

谷歌是一家希望您支付GPU费用的公司，天下没有免费的午餐。

Colab

优点

能够在Google Drive上保存notebook

可以在notebook中添加注释

和GIthub的集成较好——可以直接把notebook保存到Github仓库中

具有免费的TPU。TPU和GPU类似，但是比GPU更快。TPU是谷歌自行开发的一款芯片，但不幸的是，尽管Colab意在整合PyTotch和TPU，但TPU对PyTorch的支持仍不太友好。如果使用TensorFlow进行编程，而不是使用FastAI/Pytorch编程，那么在Colab上使用TPU可要比在Kaggle上使用GPU快多了。

缺点

部分用户在Colab中的共享内存较小。

谷歌云盘的使用较为麻烦。每个会话都需要进行身份验证，而且在谷歌云盘中解压文件较为麻烦。

键盘快捷键和Jupyter Notebook中不太一样。具体对比可以参见这里。