实践教程｜GPU 利用率低常见原因分析及优化

CV技术指南

前言 GPU 利用率低， GPU 资源严重浪费？本文和大家分享一下解决方案，希望能对使用 GPU 的同学有些帮助。

本文转载自小白学视觉

仅用于学术分享，若侵权请联系删除

欢迎关注公众号 CV技术指南 ，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

计算机视觉入门1v3辅导班

一、GPU 利用率的定义

本文的 GPU 利用率主要指 GPU 在时间片上的利用率，即通过 nvidia-smi 显示的 GPU-util 这个指标。统计方式为：在采样周期内，GPU 上面有 kernel 执行的时间百分比。

二、GPU 利用率低的本质

常见 GPU 任务运行流程图如下：

如上图所示，GPU 任务会交替的使用 CPU 和 GPU 进行计算，当 CPU 计算成为瓶颈时，就会出现 GPU 等待的问题，GPU 空跑那利用率就低了。那么优化的方向就是缩短一切使用 CPU 计算环节的耗时，减少 CPU 计算对 GPU 的阻塞情况。常见的 CPU 计算操作如下：

数据加载
数据预处理
模型保存
loss 计算
评估指标计算
日志打印
指标上报
进度上报

三、常见 GPU 利用率低原因分析

1、数据加载相关

1）存储和计算跨城了，跨城加载数据太慢导致 GPU 利用率低

说明：例如数据存储在“深圳 ceph”，但是 GPU 计算集群在“重庆”，那就涉及跨城使用了，影响很大。

优化：要么迁移数据，要么更换计算资源，确保存储及计算是同城的。

2）存储介质性能太差

说明：不同存储介质读写性能比较：本机 SSD > ceph > cfs-1.5 > hdfs > mdfs

优化：将数据先同步到本机 SSD，然后读本机 SSD 进行训练。本机 SSD 盘为“/dockerdata”，可先将其他介质下的数据同步到此盘下进行测试，排除存储介质的影响。

3）小文件太多，导致文件 io 耗时太长

说明：多个小文件不是连续的存储，读取会浪费很多时间在寻道上

优化：将数据打包成一个大的文件，比如将许多图片文件转成一个 hdf5/pth/lmdb/TFRecord 等大文件

lmdb 格式转换样例： https:// github.com/Lyken17/Effi cient-PyTorch#data-loader

其他格式转换方式请自行谷歌

4）未启用多进程并行读取数据

说明：未设置 num_workers 等参数或者设置的不合理，导致 cpu 性能没有跑起来，从而成为瓶颈，卡住 GPU

优化：设置 torch.utils.data.DataLoader 方法的 num_workers 参数、tf.data.TFRecordDataset 方法的 num_parallel_reads 参数或者 tf.data.Dataset.map 的 num_parallel_calls 参数。

5）未启用提前加载机制来实现 CPU 和 GPU 的并行

说明：未设置 prefetch_factor 等参数或者设置的不合理，导致 CPU 与 GPU 在时间上串行，CPU 运行时 GPU 利用率直接掉 0

优化：设置 torch.utils.data.DataLoader 方法的 prefetch_factor 参数或者 tf.data.Dataset.prefetch()方法。prefetch_factor 表示每个 worker 提前加载的 sample 数量（使用该参数需升级到 pytorch1.7 及以上），Dataset.prefetch()方法的参数 buffer_size 一般设置为：tf.data.experimental.AUTOTUNE，从而由 TensorFlow 自动选择合适的数值。

6）未设置共享内存 pin_memory

说明：未设置 torch.utils.data.DataLoader 方法的 pin_memory 或者设置成 False,则数据需从 CPU 传入到缓存 RAM 里面，再给传输到 GPU 上

优化：如果内存比较富裕，可以设置 pin_memory=True，直接将数据映射到 GPU 的相关内存块上，省掉一点数据传输时间

2、数据预处理相关

1）数据预处理逻辑太复杂

说明：数据预处理部分超过一个 for 循环的，都不应该和 GPU 训练部分放到一起

优化：

a、设置 tf.data.Dataset.map 的 num_parallel_calls 参数，提高并行度，一般设置为 tf.data.experimental.AUTOTUNE，可让 TensorFlow 自动选择合适的数值。

b、将部分数据预处理步骤挪出训练任务，例如对图片的归一化等操作，提前开启一个 spark 分布式任务或者 cpu 任务处理好，再进行训练。

c、提前将预处理部分需要用到的配置文件等信息加载到内存中，不要每次计算的时候再去读取。

d、关于查询操作，多使用 dict 加速查询操作；减少 for、while 循环，降低预处理复杂度。

2）利用 GPU 进行数据预处理 -- Nvidia DALI

说明：Nvidia DALI 是一个专门用于加速数据预处理过程的库，既支持 GPU 又支持 CPU

优化：采用 DALI，将基于 CPU 的数据预处理流程改造成用 GPU 来计算

DALI 文档如下： https:// zhuanlan.zhihu.com/p/10 5056158

3、模型保存相关

1）模型保存太频繁

说明：模型保存为 CPU 操作，太频繁容易导致 GPU 等待

优化：减少保存模型(checkpoint)的频率

4、指标相关

1）loss 计算太复杂

说明：含有 for 循环的复杂 loss 计算，导致 CPU 计算时间太长从而阻塞 GPU

优化：该用低复杂度的 loss 或者使用多进程或多线程进行加速

2）指标上报太频繁

说明：指标上报操作太频繁，CPU 和 GPU 频繁切换导致 GPU 利用率低

优化：改成抽样上报，例如每 100 个 step 上报一次

5、日志相关

1）日志打印太频繁

说明：日志打印操作太频繁，CPU 和 GPU 频繁切换导致 GPU 利用率低

优化：改成抽样打印，例如每 100 个 step 打印一次

四、常见数据加载方法说明

1、pytorch 的 torch.utils.data.DataLoader

DataLoader(dataset, batch_size=1, shuffle=False, sampler=None,
           batch_sampler=None, num_workers=0, collate_fn=None,
           pin_memory=False, drop_last=False, timeout=0,