深度学习之模型部署【2】-TensorRT 入门

TensorRT 简介

TensorRT 是英伟达公司根据自己的硬件设备面向 AI工作者推出的一种模型部署方案；

同时可以对网络进行压缩、优化，它通过 combines layers、kernel 优化选择，以及根据指定精度执行归一化和转换成最优的 matrix math 方法，改善网络延迟、吞吐量和效率，实现模型加速，官方称可以达到 6倍以上；

它支持多种深度学习框架，如 tf、pytroch等，即它可以从深度学习框架中直接读取网络结构和权重，没有框架的开销；　　【不同的深度学习框架有自己的模型定义方式，TensoRT要获取模型的网络结构和参数权重，必然需要先能够“读懂”框架的“语言”】

它本质上是一个推理框架；

TensorRT 依赖于Nvidia 的深度学习硬件环境，可以是GPU也可以是DLA，如果没有的话则无法使用；

更可喜的是它全面支持 python；

windows10 下安装 TensorRT

安装教程还是官网，下图为官网部分截图

1. 在 TensorRT8 以后才支持在 windows 的 python 操作

2.经测试，无需安装 PyCUDA，可能后面应用时候需要，到时候再说

3.TensorRT 只支持部分 CUDA 版本　　　　　　【刚开始没看官网，白折腾半天】

4.注意对深度学习框架版本的支持

1. 安装好 cuda 和 cudnn

2. 下载 tensorRT， https://developer.nvidia.com/tensorrt ，　　　　　　【windows 下 python 接口只能下载版本8】

4.把 lib 里所有 dll 库拷贝到 cuda 安装目录的 bin 目录下，或者把 lib 目录放到环境变量的 path 里

5.进入解压后的python目录，选择对应的 tensorrt 版本，pip 安装

pip install tensorrt-8.2.3.0-cp38-none-win_amd64.whl

6.其他非必要步骤

如果需要读取 onnx 格式模型文件，还需安装 onnx_graphsurgeon，进入该目录

pip install onnx_graphsurgeon-0.3.12-py2.py3-none-any.whl

pip install graphsurgeon-0.4.5-py2.py3-none-any.whl
pip install uff-0.6.9-py2.py3-none-any.whl

7.测试是否安装成功

import tensorrt as trt
print(trt.__version__)

TensorRT 加速原理

简单理解下，把 3 次 1x1 卷积合并了

TensorRT 使用方法

通过使用流程方法可进一步理解 TensorRT 是干嘛的

部署流程分为预处理阶段和推理阶段，具体如下：

1. 导出深度学习网络定义和权重参数

2. 解析深度学习网络定义和权重参数　　　　【这两步说明支持多种框架】

3. 根据显卡算子构造出最优执行计划

4. 将最优执行计划序列化存储

5. 反序列化最优执行计划

6. 进行推理

补充说明 ：

1. 步骤 3 说明 tensorrt 是和硬件/显卡、环境/cuda 绑定的，如果硬件、环境发生变换，需要重新部署

2. 虽说 tensorrt 支持多种框架，但通常会把 tf、torch 等框架的模型和参数转换成 onnx 格式，然后用 tensorrt 部署，

因为 onnx 不像 tf、torch 那样需要安装对应的包，onnx 可认为是一种通用语言，可以把各种框架转换成该语言，方便后续操作　　　　【具体参考我的其他博客】

预推理阶段

该阶段是结合网络结构、参数和软硬件环境生成最优执行计划，并且序列化为 xxx.engine 文件；　　　　【时间较长，故序列化】

可以使用 tensorrt 自带的 trtexec.exe 实现（bin目录下），也可用代码实现；

命令行实现方式

trtexec --onnx=xxx.onnx --saveEngine=xxx.engine --fp16

fp16 模型量化的方式，还可取 int8，不推荐，虽然速度快，但精度损失较大

python 代码实现预推理

# 导入必用依赖
import tensorrt as trt
# 创建logger：日志记录器
logger = trt.Logger(trt.Logger.WARNING)
# 创建构建器builder
builder = trt.Builder(logger)
# 预创建网络
network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))
# 加载onnx解析器
parser = trt.OnnxParser(network, logger)
success = parser.parse_from_file(onnx_path)
for idx in range(parser.num_errors):
  print(parser.get_error(idx))
if not success:
  pass  # Error handling code here
# builder配置
config = builder.create_builder_config()
# 分配显存作为工作区间，一般建议为显存一半的大小
config.max_workspace_size = 1 << 30  # 1 Mi
serialized_engine = builder.build_serialized_network(network, config)
# 序列化生成engine文件
with open(engine_path, "wb") as f:
   f.write(serialized_engine)
   print("generate file success!")

推理部署阶段

该阶段是反序列化最优执行计划，然后进行推理；

在推理阶段，tensorrt 只关注网络定义和权重参数，对于输入和输出需另外导入；

#导入必用依赖
import tensorrt as trt
import pycuda.autoinit  #负责数据初始化，内存管理，销毁等
import pycuda.driver as cuda  #GPU CPU之间的数据传输
#创建logger：日志记录器
logger = trt.Logger(trt.Logger.WARNING)
#创建runtime并反序列化生成engine
with open(“sample.engine”, “rb”) as f, trt.Runtime(logger) as runtime:
    engine = runtime.deserialize_cuda_engine(f.read())
#分配CPU锁页内存和GPU显存
h_input = cuda.pagelocked_empty(trt.volume(context.get_binding_shape(0)), dtype=np.float32)
h_output = cuda.pagelocked_empty(trt.volume(context.get_binding_shape(1)), dtype=np.float32)
d_input = cuda.mem_alloc(h_input.nbytes)
d_output = cuda.mem_alloc(h_output.nbytes)
#创建cuda流
stream = cuda.Stream()
#创建context并进行推理
with engine.create_execution_context() as context:
    # Transfer input data to the GPU.
    cuda.memcpy_htod_async(d_input, h_input, stream)
    # Run inference.
    context.execute_async_v2(bindings=[int(d_input), int(d_output)], stream_handle=stream.handle)
    # Transfer predictions back from the GPU.
    cuda.memcpy_dtoh_async(h_output, d_output, stream)
    # Synchronize the stream
    stream.synchronize()
    # Return the host output. 该数据等同于原始模型的输出数据
    return h_output

TensorRT-8.4.1.5\samples\python

本文只是基本教程，TensorRT 还有很多高级用法，比如不仅可以载入模型，也可以自定义模型，比如支持动态 batch 等

参考资料：

https://docs.nvidia.com/deeplearning/tensorrt/install-guide/index.html　　　　官网安装

https://blog.csdn.net/hjxu2016/article/details/122868139　　　　TensorRT(10):python版本安装

https://blog.csdn.net/Yang_4881002/article/details/124292512　　NVIDIA TensorRT （python win10）安装成功分享

https://www.eet-china.com/mp/a125060.html　　　TensorRT8.4.xPythonAPI安装配置与测试　　　　　　安装与应用案例

https://zhuanlan.zhihu.com/p/165359425　　　　　　　　　　　tensorRT 的安装与使用

https://github.com/zhaogangthu/keras-yolo3-ocr-tensorrt　　　　上篇文章的代码

https://blog.csdn.net/JianguoChow/article/details/122684310　　TensorRT(二)TensorRT使用教程（Python版）　　　　【使用方法主要参考】

https://zhuanlan.zhihu.com/p/371239130　　TensorRT详细入门指北，如果你还不了解TensorRT，过来看看吧！　　　　【很全，有点多了，慢慢消化吧】

https://blog.csdn.net/JianguoChow/article/details/122684310　　　　使用教程 Python 版