使用Python部署TensorRT

Python API 与 C++ API
1. 将TensorRT导入 Python
- 程序
2. 在Python中创建网络

2.1. 使用Python API从头开始创建网络定义
- 关于这个方式
2.2. 在 Python 中使用解析器导入模型
2.3. 使用Python从Caffe导入
- 关于这个方式
- 程序
2.4. 使用 Python从TensorFlow导入
- 关于这个方式
- 程序
2.5. 使用 Python从ONNX导入
- 关于这个方式
- 程序
2.6. 从PyTorch和其他框架导入
- 关于这个方式
3. 用 Python构建引擎
- 关于这个步骤
- 程序
4. 在Python中序列化模型
- 关于这个步骤
5. 在 Python 中执行推理

程序

本文介绍在没有任何框架的情况下使用 Python API进行TensorRT7.2.3的任务。 TensorRT7.2.3样例支持指南中提供了更多详细信息，并在适当的情况下链接到以下内容。

假设你从训练好的模型开始。本文将介绍使用TensorRT的以下必要步骤：

从您的模型创建TensorRT网络定义
调用TensorRT构建器从网络创建优化的运行时引擎
序列化和反序列化引擎，以便它可以在运行时快速重新创建
为引擎提供数据以执行推理

Python API 与 C++ API

本质上，C++ API 和 Python API 在支持您的需求方面应该接近相同。Python API 的主要优点是数据预处理和后处理易于使用，因为您可以使用各种库，如 NumPy 和 SciPy。

C++ API 应该用于安全性和性能很重要的情况，例如在汽车中。有关C++ API的更多信息，请参阅使用C++部署TensorRT 。

有关如何使用 Python 优化性能的更多信息，请参阅来自TensorRT最佳实践指南的如何优化 Python 性能？。

1. 将TensorRT导入 Python

导入TensorRT：

import tensorrt as trt

实现一个logging接口，TensorRT通过它报告errprs、warnings和info。以下代码展示了如何实现logging接口。在这种情况下，我们抑制了info，只报告errors和warnings。TensorRT Python绑定中包含一个简单的logger。

TRT_LOGGER = trt.Logger(trt.Logger.WARNING)
尽管可以无需创建 CUDA 上下文（将创建默认上下文），但这是不可取的。 建议在创建运行时runtime或builder对象之前创建和配置 CUDA 上下文。 
将使用与创建线程关联的 GPU 上下文创建构建器或运行时。 虽然如果默认上下文尚不存在，但会创建它，但建议在创建运行时或构建器对象之前创建和配置 CUDA 上下文 
import pycuda.driver as cuda
ctx = cuda.Device(0).make_context()
ctx.push()
...  # 申请空间，传数据，推理执行，回传
ctx.pop()
2. 在Python中创建网络
 
使用 TensorRT 执行推理的第一步是从您的模型创建一个 TensorRT 网络。实现这一目标有两种方式： 
a. 最简单方法是使用TensorRT解析库导入模型（见本文2.2，2.3，2.4，2.5），它支持以下格式的序列化模型： 
Caffe（BVLC 和 NVCaffe）
支持最高ONNX1.6发行版，7至11级ONNX算子集
UFF（用于TensorFlow） 
b. 直接使用TensorRT Network API定义模型（请参阅本文2.1)。这需要您进行少量API调用来定义网络图中的每一层，并为模型的训练参数实现您自己的导入机制。 
注： 该TensorRT Python的API不是适用于所有平台。有关更多信息，请参阅TensorRT支持矩阵 
2.1. 使用Python API从头开始创建网络定义
 
创建网络时，必须首先定义engine并创建用于推理的builder对象。Python API用于从Network APIs创建网络和引擎。网络定义参考用于向网络添加各种层。 
关于这个方式
 
有关使用 Python API创建网络和引擎的更多信息，请参阅“Hello World” For TensorRT Using PyTorch And Python (network_api_pytorch_mnist)示例。 
以下代码说明了如何使用输入、卷积、池化、完全连接、激活和SoftMax层创建一个简单的网络。 
# Create the builder and network
with trt.Builder(TRT_LOGGER) as builder, builder.create_network() as network:
    # Configure the network layers based on the weights provided. In this case, the weights are imported from a pytorch model. 
    # Add an input layer. The name is a string, dtype is a TensorRT dtype, and the shape can be provided as either a list or tuple.
    input_tensor = network.add_input(name=INPUT_NAME, dtype=trt.float32, shape=INPUT_SHAPE)
    # Add a convolution layer
    conv1_w = weights['conv1.weight'].numpy()
    conv1_b = weights['conv1.bias'].numpy()
    conv1 = network.add_convolution(input=input_tensor, num_output_maps=20, kernel_shape=(5, 5), kernel=conv1_w, bias=conv1_b)
    conv1.stride = (1, 1)
    pool1 = network.add_pooling(input=conv1.get_output(0), type=trt.PoolingType.MAX, window_size=(2, 2))
    pool1.stride = (2, 2)
    conv2_w = weights['conv2.weight'].numpy()
    conv2_b = weights['conv2.bias'].numpy()
    conv2 = network.add_convolution(pool1.get_output(0), 50, (5, 5), conv2_w, conv2_b)
    conv2.stride = (1, 1)
    pool2 = network.add_pooling(conv2.get_output(0), trt.PoolingType.MAX, (2, 2))
    pool2.stride = (2, 2)
    fc1_w = weights['fc1.weight'].numpy()
    fc1_b = weights['fc1.bias'].numpy()
    fc1 = network.add_fully_connected(input=pool2.get_output(0), num_outputs=500, kernel=fc1_w, bias=fc1_b)
    relu1 = network.add_activation(fc1.get_output(0), trt.ActivationType.RELU)
    fc2_w = weights['fc2.weight'].numpy()
    fc2_b = weights['fc2.bias'].numpy()
    fc2 = network.add_fully_connected(relu1.get_output(0), OUTPUT_SIZE, fc2_w, fc2_b)
    fc2.get_output(0).name =OUTPUT_NAME
    network.mark_output(fc2.get_output(0))
2.2. 在 Python 中使用解析器导入模型
 
要使用解析器导入模型，您需要执行以下高级步骤： 
 创建TensorRT的Builder和Network




    
 
 为特定格式创建TensorRT解析器。
 
 使用解析器解析导入的模型并填充网络。
  
对于一步步的说明，请参阅本文2.3，2.4，2.5。 
构建器必须在网络之前创建，因为它充当网络的工厂。不同的解析器有不同的机制来标记网络输出。有关更多信息，请参阅UFF Parser API、Caffe Parser API和ONNX Parser API。 
2.3. 使用Python从Caffe导入
 
以下步骤说明了如何使用CaffeParser和Python API 直接导入Caffe模型。 
关于这个方式
 
有关更多信息，请参阅使用Python将Caffe、TensorFlow和ONNX模型导入TensorRT简介(introductory_parser_samples)示例。 
 导入TensorRT。
 import tensorrt as trt
 
 定义数据类型。在这个例子中，我们将使用float32。
 datatype = trt.float32
 
 另外，定义一些路径。更改以下路径以反映你放置示例中包含的模型的位置：
 deploy_file = 'data/mnist/mnist.prototxt'
model_file = 'data/mnist/mnist.caffemodel'
 
 创建builder、network和parser：
 with trt.Builder(TRT_LOGGER) as builder, builder.create_network() as network, trt.CaffeParser() as parser:
    model_tensors = parser.parse(deploy=deploy_file, model=model_file, network=network, dtype=datatype)
 解析器返回model_tensor，这是一个包含从张量名称到ITtensor对象的表。
  
2.4. 使用 Python从TensorFlow导入
 
以下步骤说明了如何使用UffParser和Python API直接导入TensorFlow模型。 
关于这个方式
 
这个样例在<site-packages>/tensorrt/samples/python/end_to_end_tensorflow_mnist目录。有关详细信息，请参阅"Hello World" For TensorRT Using TensorFlow And Python(end_to_end_tensorflow_mnist)示例。 
 导入TensorRT：
 import tensorrt as trt
 
 创建一个TensorFlow模型。有关将TensorFlow模型冻结为流的说明，请参见Freezing A TensorFlow Graph。
 
 使用UFF转换器转换frozen tensorflow 模型到UFF文件。通常，这很简单：
 convert-to-uff frozen_inference_graph.pb
  
根据TensorRT的安装方式，convert-to-uff组件可能未安装在您的系统路径中。在这种情况下，直接调用底层Python脚本。它应该位于UFF模块的bin目录；例如， ~/.local/lib/python3.6/site-packages/uff/bin/convert_to_uff.py. 
要查找UFF模块的位置，请运行python -c "import uff；print（uff.__path__）""。 
或者，您可以使用UFF Parser API并直接转换TensorFlow GraphDef。 
 定义一些路径。更改以下路径以反映你放置示例中包含的模型的位置：
 model_file = '/data/mnist/mnist.uff'
 
 创建builder, network和parser：
 with trt.Builder(TRT_LOGGER) as builder, builder.create_network() as network, trt.UffParser() as parser:
    parser.register_input("Placeholder", (1, 28, 28))
    parser.register_output("fc2/Relu")
parser.parse(model_file, network)
2.5. 使用 Python从ONNX导入
 
以下步骤说明了如何使用OnnxParser和Python API直接导入ONNX模型。 
关于这个方式
 
有关更多信息，请参阅使用使用Python将Caffe、TensorFlow和ONNX模型导入TensorRT(introductory_parser_samples)示例。 
注意：
 一般来说，较新版本的OnnxParser被设计为向后兼容，因此，遇到由较早版本的ONNX导出器生成的模型文件应该不会导致问题。当更改不向后兼容时，可能会有一些例外。在这种情况下，请将较早的ONNX模型文件转换为较晚支持的版本。有关此更多信息，请参阅ONNX模型算子集版本转换器。 
用户模型也可能是由导出工具生成的，该工具支持的算子集比TensorRT附带的ONNX解析器支持的算子集要晚。在这种情况下，检查是否有最新版本的TensorRT发布到GitHub，onnx-tensorrt, 支持所需版本。有关更多信息，请参阅Python中使用ONNX TensorRT后端实现目标检测(yolov3_onnx)示例。 
支持的版本由onnx_trt_backend.cpp中的BACKEND_OPSET_VERSION变量决定. 从 GitHub下载并构建最新版本的ONNXTensorRT Parser。可以在此处找到构建说明：ONNX的 TensorRT后端。 
在 TensorRT 7中，ONNX 解析器仅支持全维模式，这意味着你的网络定义必须使用显式批处理explicitBatch标志设置。有关更多信息，请参阅使用动态shapes。 
导入TensorRT：import tensorrt as trt
 
创建builder,network和parser：EXPLICIT_BATCH = 1 << (int)(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)
with trt.Builder(TRT_LOGGER) as builder, builder.create_network(EXPLICIT_BATCH) as network, trt.OnnxParser(network, TRT_LOGGER) as parser:
    with open(model_path, 'rb') as model:
        if not parser.parse(model.read()):
            for error in range(parser.num_errors):
                print(parser.get_error(error))
 注： 你转化的ONNX模型可以使用onnx-simplifier简化：$ pip install onnx-simplifier
$ python -m onnxsim {your_onnx_model}.onnx {your_sim_onnx_file}.onnx
2.6. 从PyTorch和其他框架导入
 
关于这个方式
 
使用带有Pytorch（或任何其他具有 NumPy兼容权重的框架）的TensorRT包含使用API复制网络架构（请参阅本文2.1），然后从PyTorch复制权重。有关更多信息，请参阅使用PyTorch和其他框架。 
对于PyTorch来说，一般采用PyTorch ——> ONNX ——> TensorRT的转换路径构建engine。 
要执行推理，请按照本文第5节中概述的说明进行操作。 
3. 用 Python构建引擎
 
builder的功能之一是在其 CUDA 内核目录中搜索可用的最快实现，因此有必要使用与优化引擎将运行的相同GPU来构建。 
关于这个步骤
 
这IBuilderConfig有许多属性可以设置，以便控制网络运行的精度和自动调整参数，例如在确定哪个内核最快时，TensorRT应该为每个内核计时多少次（更多的迭代会导致更长的运行时间，但是对噪声的敏感性较低。）您还可以查询构建器以了解硬件本身支持哪些混合精度类型。 
一个特别重要的特性是最大工作空间大小。 
层算法通常需要临时工作空间。此参数限制网络中任何层可以使用的最大大小。如果提供的缓存不足，TensorRT可能无法找到给定层的实现。 
有关在Python中构建引擎的更多信息，请参阅使用Python将Caffe、TensorFlow和ONNX模型导入TensorRT(introductory_parser_samples)示例。 
 使用builder对象构建引擎：
 with trt.Builder(TRT_LOGGER) as builder, builder.create_builder_config() as config:
    # max_workspace_size determines the amount of memory available to the builder when building an optimized engine
    config.max_workspace_size = 1 << 20
    with builder.build_engine(network, config) as engine:
        # Do inference here.
 构建引擎时，TensorRT会复制权重。
 
 进行推理。要执行推理，请按照本文第5节中概述的说明进行操作。
  
4. 在Python中序列化模型
 
从这里开始，您可以序列化引擎，也可以直接使用引擎进行推理。在将模型用于推理之前，序列化和反序列化是一个可选步骤 - 如果需要，引擎对象可以直接用于推理。 
关于这个步骤
 
当您序列化时，您将引擎转换为一种格式，以便稍后存储和使用以进行推理。要用于推理，您只需反序列化引擎。序列化和反序列化是可选的。由于从网络定义创建引擎可能很耗时，因此您可以通过将其序列化一次并在推理时反序列化，从而避免每次应用程序重新运行时重新构建引擎。因此，引擎构建完成后，用户通常希望将其序列化以备后用。 
注意： 序列化引擎不可跨平台或TensorRT版本移植。引擎特定于它们构建的具体GPU模型（包括平台和TensorRT版本）。 
将模型序列化为模型流： 
serialized_engine = engine.serialize()
反序列化模型流以执行推理。反序列化需要创建一个运行时对象： 
with trt.Runtime(TRT_LOGGER) as runtime:
    engine = runtime.deserialize_cuda_engine(serialized_engine)
也可以将序列化引擎保存到文件中，然后从文件中读回: 
序列化引擎并写入文件： 
with open(“sample.engine”, “wb”) as f:
    f.write(engine.serialize())
从文件中读取引擎并反序列化： 
with open(“sample.engine”, “rb”) as f, trt.Runtime(TRT_LOGGER) as runtime:
    engine = runtime.deserialize_cuda_engine(f.read())
5. 在 Python 中执行推理
 
以下步骤说明了如何在 Python 中执行推理，现在您已经有了一个引擎。 
为输入和输出分配一些主机和设备缓冲区。这个例子假设 context.all_binding_dimensions == True并且引擎有一个单输入binding_index=0和一个单输出binding_index=1： 
# Determine dimensions and create page-locked memory buffers (i.e. won't be swapped to disk) to hold host inputs/outputs.
h_input = cuda.pagelocked_empty(trt.volume(context.get_binding_shape(0)), dtype=np.float32)
h_output = cuda.pagelocked_empty(trt.volume(context.get_binding_shape(1)), dtype=np.float32)
# Allocate device memory for inputs and outputs.
d_input = cuda.mem_alloc(h_input.nbytes)
d_output = cuda.mem_alloc(h_output.nbytes)
# Create a stream in which to copy inputs/outputs and run inference.
stream = cuda.Stream()
创建一些空间来存储中间激活值。由于引擎保存网络定义和训练参数，因此需要额外的空间。这些保存在执行上下文中： 
with engine.create_execution_context() as context:
    # Transfer input data to the GPU.
    cuda.memcpy_htod_async(d_input, h_input, stream)
    # Run inference.
    context.execute_async_v2(bindings=[int(d_input), int(d_output)], stream_handle=stream.handle)
    # Transfer predictions back from the GPU.
    cuda.memcpy_dtoh_async(h_output, d_output, stream)
    # Synchronize the stream
    stream.synchronize()
    # Return the host output. 
return h_output
一个引擎可以有多个执行上下文，允许一组权重用于多个重叠的推理任务。例如，您可以在并行CUDA流中每个流使用一个引擎和一个上下文来处理图像。每个上下文都将在与引擎相同的GPU上创建。
值得注意的是第三点，可以看到tensorrt转换出来的模型实际上是和硬件绑定的，也就是在部署的过程中，如果你的显卡和显卡相关驱动软件（cuda、cudnn）发生了改变，那么模型就得需要重新做转换。
一、trtexec
trtexec是在tensorrt包
使用TensorRT来加速部署图片分类项目，此文档中包含全部 软件及依赖库
在Win10系统上完成，需要用到的软件与依赖包有：cuda 10.2 , cudnn 7.6.5 , VS2017 , OpenCV 3.4.0 , Anaconda3 , CMake 3.19.4 , TensorRT 8.0
，代码附详细解释
一个简单，高效，易于使用的nvidia TensorRT包装器，用于带有c ++和python API的cnn，支持caffe，uff和onnx格式模型。 您将可以在几行代码中使用tiny-tensorrt部署模型！
 // create engine
trt.CreateEngine(onnxModelpath, engineFile, customOutput, maxBatchSize, mode);
// transfer you input data to tensorrt engine
trt.CopyFromHostToDevice(input,inputIndex);
// inference!!!
trt.Forward();
//  retrieve network output
trt.CopyFromHostToDevice(output, outputIn
				Shipit-文档
 Shipit是一种部署工具，可以使所有人的运输代码更好。 对于大型的开发人员和设计人员团队，他们可以共同构建和部署GitHub存储库特别有用。 您可以使用它来：
 将新应用程序添加到您的部署环境中，而不必反复更改核心配置文件shipit.yml基本上即插即用
通过在Shipit内部推动，锁定和回滚部署来控制开发进度
实施清单并在部署时提供监视权限。
 Shipit与您可以使用脚本部署的几乎任何东西兼容。 它本机使用和检测堆栈，并且具有易于部署到或。 在Shopify，我们使用Shipit使用Python，Rails，RubyGems，Java和Go在数十个团队中同步和部署了数百个项目。
 本指南旨在帮助您，和Shipit。
 Shipit需要数据库（MySQL，PostgreSQL或SQLite3），redis和Ruby 2.6或更高版本。
一，安装与设置
 在交互式监视模式下启动测试运行器。 有关更多信息，请参见关于的部分。
npm run build
 构建生产到应用程序build文件夹。 它在生产模式下正确捆绑了React，并优化了构建以获得最佳性能。
 生成被最小化，并且文件名包括哈希值。 您的应用已准备好进行部署！
 有关更多信息，请参见关于的部分。
npm run eject
 注意：这是单向操作。 eject ，您将无法返回！
 如果您对构建工具和配置选择不满意，则可以随时eject 。 此命令将从您的项目中删除单个生成依赖项。
 相反，它将所有配置文件和传递依赖项（we
				随着TensorRT8.0版本的发布，windows下也正式支持Python版本了，跟紧NVIDIA的步伐，正式总结一份TensorRT-python的使用经验。
一、底层库依赖
在安装TensorRT前，首先需要安装CUDA、CUDNN等NVIDIA的基本库，如何安装，已经老生常谈了，这里不再过多描述。
关于版本的选择，楼主这里：
CUDA版本，楼主这里选择的是 cuda11.5 ，具体cuda版本见 https://developer.nvidia.com/cuda-toolkit-archive，可自
 请转到Github项目“  ”，以查看TensorFlow Serving和Kafka Streams的工作示例。
尚无工作代码
GCP示例：将TensorFlow模型部署到Google ML Engine以在Kubernetes上的Kafka Streams应用程序中实现交互
该项目包含一个演示，可使用Apache Kafka，Kafka Streams和使用 （在此示例中使用 ）部署的TensorFlow模型进行模型推理。 对于其他ML框架和Cloud Providers，这些概念非常相似，例如，您也可以使用Apache MXNet和。
TensorFlow服务（使用Google Cloud ML Engine）
 博客文章“ ”很好地解释了如何将经过训练的TensorFlow模型导出和部署到TensorFlow Serving基础架构。 您可
首先应该明确，tensorrt是c写的，而且是没有开源的。同时其提供的sample中有c++的和python的。这里我们解析一下tensorrt python的使用解析，为什么能调c的部分。
1. c使用的动态库
下载tensorrt ，解压之后在lib文件夹下有所有c/c++使用的动态库。可以将路径加入到环境变量：$LD_LIBRARY_PATH。Linux系统就可以发现这些动态库了。
在c/c++使用的时候，只需要相关的头文件和这些动态库就ok了，然后按.
				### 回答1：
TensorRT是一个高性能的深度学习推理引擎，可以用于图像分类任务。首先，我们需要使用训练好的模型进行推理。这个模型可以是在深度学习框架中训练得到的，例如TensorFlow或PyTorch。
在TensorRT中，我们需要将训练好的模型转换为TensorRT的可执行文件格式。这个过程包括模型优化、层融合、权重量化等步骤，以提高推理过程的性能和效率。
然后，我们可以使用TensorRT对输入的图像进行分类。首先，我们需要将图像进行预处理，例如调整大小、裁剪或归一化。然后，将预处理后的图像输入到TensorRT中，调用推理引擎进行计算。推理引擎将使用已优化的模型执行前向传播，输出图像的分类结果。
在图像分类任务中，通常会使用卷积神经网络（CNN）作为模型。TensorRT提供了与常见的CNN模型兼容的插件，包括卷积层、全连接层等，以提供高性能的计算。此外，TensorRT还支持一些优化技术，如动态边缘修剪和网络剪枝，以进一步提高推理性能。
总结起来，TensorRT在图像分类任务中通过将训练好的模型转换为可执行文件，并使用高度优化的计算插件和技术，提供了高性能的推理引擎。它不仅提供了快速的推理速度，还能够在性能和功耗之间取得很好的平衡，使得图像分类任务更加高效和实用。  
### 回答2：
TensorRT 是 NVIDIA 推出的一个高性能深度学习推理引擎，用于针对深度学习模型进行优化和加速。在图像分类问题中，TensorRT 可以大幅提高推理速度，使得模型在实时场景中能够更快速地完成预测。
首先，使用 TensorRT 进行图像分类需要经过多个步骤。首先，我们需要使用常见的深度学习框架（如 TensorFlow 或 PyTorch）训练一个精确的图像分类模型。接下来，通过将训练好的模型转换为 TensorRT 支持的序列化格式（如 ONNX 格式），然后使用 TensorRT 进行模型优化和加速。
TensorRT 通过自动化的网络优化技术，可以对图像分类模型进行各种优化，包括网络结构优化、权重量化、层融合和剪枝等。这些优化手段可以减少模型的计算和存储需求，并增加并行计算的机会，从而提高推理速度和降低内存占用。此外，TensorRT 还针对 NVIDIA GPU 的架构和特性进行了针对性的优化，进一步提升了性能。
在使用 TensorRT 进行图像分类时，我们可以使用其提供的 Python 或 C++ API 来进行开发和集成。开发者可以根据自己的需求选择合适的 API，并根据具体的应用场景进行调整和优化。TensorRT 还提供了一些示例代码和文档，帮助开发者快速上手和了解各种优化技术的使用方法。
总而言之，TensorRT 在图像分类中的应用可以大幅提高模型的推理速度，使得模型能够在实时场景中更加高效地进行图像分类任务。同时，TensorRT 还具备易用性和可扩展性，使得开发者可以方便地集成和部署优化后的模型。
                    博主，您好，请问转换模型成功后，出现这种情况是什么原因：
Cannot deserialize with an empty memory buffer.
[08/04/2023-11:18:35] [E] [TRT] 4: [runtime.cpp::deserializeCudaEngine::50] Error Code 4: Internal Error (Engine deserialization failed.)
段错误 (核心已转储)
                行为识别：行人跌倒检测（含源码）
                    wq_0708: 
                    可以试试文末Models资源包替换源码里的Models目录
                行为识别：行人跌倒检测（含源码）
                    wq_0708: 
                    可以试试文末的Models资源包替换一下源码里的
                行为识别：行人跌倒检测（含源码）
                    qq_42244889: 
                    请问这个反序列化错误怎么改？