知乎大佬们好，我懂深度学习算法，目前想往模型部署优化这个方向发展，请问学习路线是什么？

Question

知乎大佬们好，我懂深度学习算法，目前想往模型部署优化这个方向发展，请问学习路线是什么？

请问如何满足如图所示jd，我现在只会Python，每天工作就是写脚本处理数据，训练模型，但是没什么工程能力，我想往模型部署优化，算法落地这个方向发展，…

关注者

1,093

被浏览

539,000

29 个回答

模型部署优化可简单分为三个大方向：

模型结构优化：设计出更适合目标硬件的模型结构，目前人工设计居多，也有一些NAS
模型压缩：不改变模型框架的情况下，压缩其理论计算量，其中模型剪枝、模型量化最为常用
推理优化：编写高性能的算子来加速模型在目标硬件的计算（需要优化到汇编级别）

答主的训练框架是PyTorch，我推荐一个相对简单的路线，把各个部分过一下，然后你可以选择自己感兴趣的点深入

结构：学习一下 MobileNet（当初面试，就被问了MobileNet的特点和实现细节）、ShuffleNet 、Yolo等面向部署的模型结构，最好读读论文搞懂为什么要这样设计
剪枝：用NNI、 TinyNeuralNetwork 等框架对模型进行剪枝，并阅读其源码了解常用的剪枝方法
量化：用PyTorch 的 FX 模块、TinyNeuralNetwork等框架完成模型的量化，如果要深入了解原理建议阅读 Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference 这篇论文（非常经典，里面还有汇编如何实现等底层细节）。
推理：这块已经很成熟了，基本就调用目标芯片对应的框架，例如TensorRT（NVIDIA GPU），OpenVINO（Intel CPU），MNN、TNN、TFLite（大部分移动端芯片），TFLite Micro、Tengine（特定嵌入式芯片），除此之外很多芯片厂商还提供了自己的解决方案此处不多赘述。
推理性能优化：目前深度学习推理性能优化，大部分情况下等同于矩阵乘法的加速，因此题主可以找几篇矩阵乘法加速的文章阅读并实践一下。此处不建议直接去读推理框架源码，除非真的很感兴趣并决定深耕，因为这块较为底层，上手难度很大。

-----2023-6-7更新-----

最近大模型比较火，我们组最近做了一点大模型相关的模型压缩工作，可以参考看看：
TinyNN 开源超便捷大模型量化推理工具

编辑于 2023-06-07 15:26

OpenPPL

模型部署优化这个方向其实比较宽泛。从模型完成训练，到最终将模型部署到实际硬件上，整个流程中会涉及到很多不同层面的工作，每一个环节对技术点的要求也不尽相同。

文：王佩琪

部署的流程大致可以分为以下几个环节：

一、模型转换

从训练框架得到模型后，根据需求转换到相应的模型格式。模型格式的选择通常是根据公司业务端 SDK 的需求，通常为 caffe 模型或 onnx 模型，以方便模型在不同的框架之间适配。

该环节的工作需要对相应的训练框架以及 caffe/onnx 等模型格式有所了解。

常用的 Pytorch 和 TensorFlow 等框架都有十分成熟的社区和对应的博客或教程；caffe 和 onnx 模型格式也有很多可参考和学习的公开文档。

即使没找到有可参考的文章时，好在二者都是开源的，依然可以通过对源码和样例代码的阅读来寻找答案。

二、模型优化

此处的模型优化是指与后端无关的通用优化，比如常量折叠、算数优化、依赖优化、函数优化、算子融合以及模型信息简化等等。

部分训练框架会在训练模型导出时就包含部分上述优化过程，同时如果模型格式进行了转换操作，不同IR表示之间的差异可能会引入一些冗余或可优化的计算，因此在模型转换后通常也会进行一部分的模型优化操作。

该环节的工作需要对计算图的执行流程、各个 op 的计算定义、程序运行性能模型有一定了解，才能知道如果进行模型优化，如何保证优化后的模型具有更好的性能。

了解得越深入，越可以挖掘到更多的模型潜在性能。

三、模型压缩

广义上来讲，模型压缩也属于模型优化的一部分。模型压缩本身也包括很多种方法，比如剪枝、蒸馏、量化等等。模型压缩的根本目的是希望获得一个较小的模型，减少存储需求的同时降低计算量，从而达到加速的目的。

该环节的工作需要对压缩算法本身、模型涉及到的算法任务及模型结构设计、硬件平台计算流程三个方面都有一定的了解。

当因模型压缩操作导致模型精度下降时，对模型算法的了解，和该模型在硬件上的计算细节有足够的了解，才能分析出精度下降的原因，并给出针对性的解决方案。

对于模型压缩更重要的往往是工程经验 ，因为在不同的硬件后端上部署相同的模型时，由于硬件计算的差异性，对精度的影响往往也不尽相同，这方面只有通过积累工程经验来不断提升。

OpenPPL 也在逐步开源自己的模型压缩工具链，并对上述提到的模型算法、压缩算法和硬件平台适配等方面的知识进行介绍。

四、模型部署

模型部署是整个过程中最复杂的环节。从工程上讲，主要的核心任务是模型打包、模型加密，并进行SDK封装。

在一个实际的产品中，往往会用到多个模型。

模型打包是指将模型涉及到的前后处理，以及多个模型整合到一起，并加入一些其他描述性文件。模型打包的格式和模型加密的方法与具体的 SDK 相关。 在该环节中主要涉及到的技能与 SDK 开发更为紧密。

从功能上讲，对部署最后的性能影响最大的肯定是 SDK 中包含的后端库，即实际运行模型的推理库。开发一个高性能推理库所需要的技能点就要更为广泛，并且专业。

并行计算的编程思想在不同的平台上是通用的，但不同的硬件架构的有着各自的特点，推理库的开发思路也不尽相同，这也就要求对开发后端的架构体系有着一定的了解。

具体到不同架构的编程学习，建议参考当前各大厂开源的推理库来进一步学习。

尝试一下： 《从 0 到 1，使用 OpenPPL 实现一个 AI 推理应用》

加入我们： 《 OpenPPL 招人啦！》

欢迎 star

交流 QQ 群：627853444，入群密令 OpenPPL

编辑于 2021-08-10 15:58

这个jd看上去是一个算法中心里面工程组发的，大概率进去之后是做一些工具来帮助算法同学将算法落地到业务上，这个在我看来主要分为两个角度，性能优化的算法角度与工程角度，目标就是用尽可能低的代价取得尽可能高的指标

1、算法角度

从算法侧来做性能优化基本就是这几个套路：设计紧凑模型，模型剪枝，模型量化，知识蒸馏等等，除此之外就是在这几个套路上面再套个automl。要入手这个方向比较简单，顺着mit的hansong组最新的论文看就好，再顺着里面提到的参考文献挑感兴趣的看，不过他们组大部分工作是关于cv的，如果要做特定应用的性能优化直接在Google用关键字搜一下相关论文即可（只看大组和高引论文）。总体来说在算法角度上这个事没有特别深。

2、工程角度

工程角度上感觉这个事会更深一些，相对算法角度而言个人感觉难度也大很多，需要比较扎实的计算机基础。

如果从一个经过充分算法优化的pretrained模型出发，首先这个pretrained模型本质上就是一个经过序列化的DAG图，其中的每个节点就是一个算子（例如卷积），模型进行推理其实就是从输入节点开始遍历这个图，每个节点执行对应的算子进行计算，直到最后的输出节点。只从优化模型推理时间的角度来考虑的话（先不考虑peak memory优化，数据加载优化等），整个过程的时间其实就是花在每个节点上的时间之和，那么可以做的事情有两个： 减小遍历的节点数 和 减小在单个节点上的时间 。减小遍历的节点数也就是计算图优化，例如可以从输出节点反向遍历依赖的节点，将不需要的节点进行裁剪，还有就是将一些算子进行融合，例如将matmul+add操作合并为gemm，以及conv+bn层融合进单个conv层，计算图优化比较好的实践是Google的grappler。减小单个节点上的时间也就是算子优化，单个节点上花的时间由访存+计算两方面组成，有的算子是计算密集型的（例如conv），有的算子是访存密集型的（例如add），如果某个模型绝大部分都是访存密集型算子，那通过优化计算时间能得到的加速也会很有限（参考Amdahl加速定律）。优化算子除了高效的实现（例如用Winograd计算卷积，矩阵相乘时分块开多线程计算等）之外，还需要考虑部署平台的特性，例如不同平台不同指令集对低精度计算的支持不一样，Intel直到Cascade Lake才开始支持半精度浮点计算（bf16），在gpu上用半精度加速计算的套路在前几年的Intel cpu上就不好使了。

前面光是推理加速就一堆东西可以做，除此之外还有流计算等方向可以做很多事。总而言之工程方面想做的深不太容易，建议多看看计算机系统类的书籍（csapp和计算机系统量化方法等），除此之外再看看现有的解决方案（tensorrt，ncnn，tvm等），以及多实践。

发布于 2021-09-30 23:20

BBuf

一般你部署的每一个硬件平台都有自己家的推理框架，需要自己做的任务基本也就是调用api来对一些模型进行落地，这其实不难，只要稍微熟悉一些c/c++即可。如果想进阶，学习一些优化的知识，比如卷积优化算法winograd,sgemm，或者更深入的汇编优化等等可以关注知乎移动端专栏或者GiantPandaCV公众号，都会带来一些比较良心的部署优化相关的文章。

发布于 2020-09-11 09:33

Lanking

哥伦比亚大学计算机工程硕士

懂深度学习算法就不会问这个问题了... 你应该是会调用ops自己组网... 但是对框架本身不懂。从要求来看，主要侧重于优化方面，而且是边缘优化，看起来是对性能要求较高的手机端app部署... 这个建议看看各路来源框架吧，

边缘部署

菊厂的mindsphore，小米的mace，腾讯的TNN，apache tvm, 亚马逊的SageMaker Neo

然后需要会QNN加速(一般写一行转化就好)

会并行计算懂CUDA我觉得比较硬盒了，除非是自己组需要自己写模型，不用框架，就是前向后向运算都要自己撸... 否则一般不会接触到CUDA的...

然后服务器部署的话，服务器不同的点是，要保证低延迟而且稳定两个特性，同时要兼顾高并发以及可扩展性。这些集其一身的话用的比较多的就是Flask+Gunicorn (PyThon)。对于Java来说建议学AWS出的DJL:

总之学习路线不再是深度学习本身，要懂一些服务部署的知识，同时还有各种优化的方法。还有常见框架动态图转静态图的算法之类的。

发布于 2020-08-03 02:08

插个眼~

我觉得这个问题问的非常好，期待下大佬们的回答！

说下我的情况吧。

我从毕业开始做图像算法，四年多的时间。我记得刚毕业那会儿（16年），行业内的图像解决方案基本上都是adaboost，SVM然后加上传统图像处理的手段，然后突然到16年年底的时候，新出来的文章很多都是DL方向的了，甚至感觉是爆发式的一样，全行业开始搞AI，然后产品宣传，铺天盖地都是AI。然后我也感觉有点懵逼，随大流呗，然后开始搞caffe。

最开始上手DL，搞caffe，然后搞 RCNN -> Fast RCNN ->Faster RCNN，后来搞darknet，这些框架真的牛逼，只是自己搭网络，增加新层会比较麻烦，后来SSD出来，自带了修改过的caffe，然后后来很长一段时间都在ssd框架下玩，改backbone

再后来，逐渐转到pytorch，keras，框架做的越来越好。api抽象程度越来越高，搭建网络和训练越来越不那么需要脑子了

然后随着每一年毕业生进入职场，大家都会看paper，都会调框架，内卷都快卷出花来了

再回头看看项目落地，特别是边缘计算平台的落地，情况远没有算法这块乐观，模型压缩，计算加速，好像变得越来越高端

后来强迫自己去学了一下tensorRT，ncnn，发现这里面也是有套路可循，并且这种类似的框架的易用性也在变好，调用api也在越来越抽象，这是好事

直接去学习优秀的部署框架里面对基本算子的操作，可以对算法的理解更上一个台阶

发布于 2020-09-12 13:04

带萝卜

AI脚本工程师，家里没有矿

题主贴的图里面提到了汇编和cuda，很有可能是这个团队里面的研究岗的自由度比较高，经常整出框架里面不支持的算子。

他们比较看中的应该是算子优化的能力吧，算子优化方面可以学习一下NCNN的代码，arm和x86的算子优化都比较完整。

发布于 2020-08-21 11:21

我建议你以High Performance Computing（HPC）为关键词搜索一下世界名校的公开课，看一下他们的课程设置，再结合自己的水平逐个攻破。

几十年前的HPC只要搞清楚一段代码是怎么转化成指令以及数据怎么被读进寄存器，最后完成计算的。但CPU越做越复杂，缓存层数也越来越多，再加上并行，GPU加速，等等，真是越来越复杂。

最后，我要推荐一下知乎大神 @李沐讲他的成名作的那个视频，给做“系统”的人科普“机器学习”，也可以看作给学“机器学习”的人科普“系统”的思想。

发布于 2023-03-10 03:40

极智视界

做了五年深度学习算法部署的人来答。

首先 要明白的是你是只关心 "部署能不能跑通" 还是更关心 "部署跑通后的继续优化" ，如果你只是关注 "部署能不能跑通"，那很简单套用下网上的示例就行，看到这里你就可以自行 `exit;` 返回就好；如果你是属于更加关注 "部署跑通后的继续优化"，那就继续往下看。

对于深度学习的部署，可能会有种 "牛头不对马嘴" 的说法，就是 "记得用 C++ 来部署深度学习模型哦，用 C++ 效率高"。 所谓的 "用 C++ 部署深度学习模型" 的说法过于笼统 ，这么个说法的朋友的理由一般就是 "python 效率低、C++ 效率高，那就用 C++"，然而这种说法在算法部署领域 是非常不专业的 。算法部署或者也可以称为推理优化，主要是在于先要看部署硬件、看目标平台来选择不同的推理框架、推理引擎，而不在于说是使用 Python 还是用 C++，当然一般就是 C++ 了，这种其实基本就是默认都不用说。

打个比方，比如有个项目需求，让你在英伟达的 GPU 上去部署一个深度学习模型，上 TensorRT 就是很自然的反应；再比如部署的目标平台是英特尔的工控机哦，那是不是可以考虑 OpenVINO；再比如要是在国产 AI 算力上部署呢，那就需要用厂商提供的推理引擎去做部署了，诸如此类...

上面说的是推理框架、推理引擎层面，这个层面其实是会 "通用性较低" 的，基本就是各家有各家的推理引擎，这个时候有一些 "愿景伟大" 的框架就出来了，其中最有代表的就是天奇 @陈天奇的 TVM，用编译优化的方式致力于前、特别是后端硬件的统一，另外也有谷歌的 MLIR 也都在做这个事情，你可以了解。

除了 "不通用" 的推理引擎，算法部署还有一些通用的技术，比如前端模型转换、算子融合、量化、蒸馏、剪枝等，这些是与硬件平台无关的。比如量化，你完全是可以先在 CPU 做，拿到缩放 Scale 也就是所谓的校准表就行；比如前端模型转换，Pytorch 转 onnx 是家常便饭，虽然简便但并不简单，其中注意事项可不少，另外还有特殊如 pytorch 转 caffe、caffe 转 onnx 等，当然这些在这个年代越来越少了，还是 Pytorch 转 onnx 居多。这些也是需要学习的。

另外还有算法本身的知识，比如 CNN 模型的计算密集型优化、比如 Transformer 大模型的访存密集型优化，都是不一样滴。

以上例举了一些深度学习部署方面的知识，你可以看到，绝对不止于是选择 Python 或 C++ 这种编程语言层面的事情。

我之前也写过挺多关于算法部署、推理加速方面的技术分享，可供参考， 如果你感兴趣的话也墙裂推荐关注我方便获取更多相关高质量技术分享，首发更新在我的公众号平台 ，

当然，上面这些我只是拿了我 "宝藏" 中的小部分。

如果你愿望强烈想直接跟我沟通，可以点击下面的咨询，

编辑于 2023-12-13 17:20

不请自来，推荐下自己的项目，一个使用C++完成的深度学习模型部署工具箱。将主流深度学习推理框架抽象成统一接口，包括ONNXRUNTIME、MNN、NCNN、TNN、PaddleLite和OpenVINO。提供多种场景、语言的部署Demo。如果有兴趣可以一起学习～

发布于 2023-08-29 18:08

自动驾驶之心

1前言

TensorRT是英伟达官方提供的一个高性能深度学习推理优化库，支持C++和Python两种编程语言API。通常情况下深度学习模型部署都会追求效率，尤其是在嵌入式平台上，所以一般会选择使用C++来做部署。

本文将以YOLOv5为例详细介绍如何使用TensorRT的C++版本API来部署ONNX模型，使用的TensorRT版本为8.4.1.5，如果使用其他版本可能会存在某些函数与本文描述的不一致。另外，使用TensorRT 7会导致YOLOv5的输出结果与期望不一致，请注意。

2导出ONNX模型

YOLOv5使用PyTorch框架进行训练，可以使用 官方代码仓库 中的export.py脚本把PyTorch模型转换为ONNX模型:

python export.py --weights yolov5x.pt --include onnx --imgsz 640 640

3准备模型输入数据

如果想用YOLOv5对图像做目标检测，在将图像输入给模型之前还需要做一定的预处理操作，预处理操作应该与模型训练时所做的操作一致。YOLOv5的输入是RGB格式的3通道图像，图像的每个像素需要除以255来做归一化，并且数据要按照CHW的顺序进行排布。所以YOLOv5的预处理大致可以分为两个步骤：

将原始输入图像缩放到模型需要的尺寸，比如640x640。这一步需要注意的是，原始图像是按照等比例进行缩放的，如果缩放后的图像某个维度上比目标值小，那么就需要进行填充。举个例子：假设输入图像尺寸为768x576，模型输入尺寸为640x640，按照等比例缩放的原则缩放后的图像尺寸为640x480，那么在y方向上还需要填充640-480=160（分别在图像的顶部和底部各填充80）。来看一下实现代码：

cv::Mat input_image = cv::imread("dog.jpg");
cv::Mat resize_image;
const int model_width = 640;
const int model_height = 640;
const float ratio = std::min(model_width / (input_image.cols * 1.0f),
                              model_height / (input_image.rows * 1.0f));
// 等比例缩放
const int border_width = input_image.cols * ratio;
const int border_height = input_image.rows * ratio;
// 计算偏移值
const int x_offset = (model_width - border_width) / 2;
const int y_offset = (model_height - border_height) / 2;
cv::resize(input_image, resize_image, cv::Size(border_width, border_height));
cv::copyMakeBorder(resize_image, resize_image, y_offset, y_offset, x_offset,
                    x_offset, cv::BORDER_CONSTANT, cv::Scalar(114, 114, 114));
// 转换为RGB格式
cv::cvtColor(resize_image, resize_image, cv::COLOR_BGR2RGB);

图像这样处理后的效果如下图所示，顶部和底部的灰色部分是填充后的效果。

对图像像素做归一化操作，并按照CHW的顺序进行排布。这一步的操作比较简单，直接看代码吧：

input_blob = new float[model_height * model_width * 3];
const int channels = resize_image.channels();
const int width = resize_image.cols;
const int height = resize_image.rows;
for (int c = 0; c < channels; c++) {
  for (int h = 0; h < height; h++) {
    for (int w = 0; w < width; w++) {
      input_blob[c * width * height + h * width + w] =
          resize_image.at<cv::Vec3b>(h, w)[c] / 255.0f;

4ONNX模型部署

1. 模型优化与序列化

要使用TensorRT的C++ API来部署模型，首先需要包含头文件NvInfer.h。

#include "NvInfer.h"

TensorRT所有的编程接口都被放在命名空间nvinfer1中，并且都以字母I为前缀，比如ILogger、IBuilder等。使用TensorRT部署模型首先需要创建一个IBuilder对象，创建之前还要先实例化ILogger接口：

class MyLogger : public nvinfer1::ILogger {
 public:
  explicit MyLogger(nvinfer1::ILogger::Severity severity =
                        nvinfer1::ILogger::Severity::kWARNING)
      : severity_(severity) {}
  void log(nvinfer1::ILogger::Severity severity,
           const char *msg) noexcept override {
    if (severity <= severity_) {
      std::cerr << msg << std::endl;
  nvinfer1::ILogger::Severity severity_;

上面的代码默认会捕获级别大于等于WARNING的日志信息并在终端输出。实例化ILogger接口后，就可以创建IBuilder对象：

MyLogger logger;
nvinfer1::IBuilder *builder = nvinfer1::createInferBuilder(logger);

创建IBuilder对象后，优化一个模型的第一步是要构建模型的网络结构。

const uint32_t explicit_batch = 1U << static_cast<uint32_t>(
          nvinfer1::NetworkDefinitionCreationFlag::kEXPLICIT_BATCH);
nvinfer1::INetworkDefinition *network = builder->createNetworkV2(explicit_batch);

模型的网络结构有两种构建方式，一种是使用TensorRT的API一层一层地去搭建，这种方式比较麻烦；另外一种是直接从ONNX模型中解析出模型的网络结构，这需要ONNX解析器来完成。由于我们已经有现成的ONNX模型了，所以选择第二种方式。TensorRT的ONNX解析器接口被封装在头文件NvOnnxParser.h中，命名空间为nvonnxparser。创建ONNX解析器对象并加载模型的代码如下：

const std::string onnx_model = "yolov5m.onnx";
nvonnxparser::IParser *parser = nvonnxparser::createParser(*network, logger);
parser->parseFromFile(model_path.c_str(),
    static_cast<int>(nvinfer1::ILogger::Severity::kERROR))
// 如果有错误则输出错误信息
for (int32_t i = 0; i < parser->getNbErrors(); ++i) {
    std::cout << parser->getError(i)->desc() << std::endl;

模型解析成功后，需要创建一个IBuilderConfig对象来告诉TensorRT该如何对模型进行优化。这个接口定义了很多属性，其中最重要的一个属性是工作空间的最大容量。在网络层实现过程中通常会需要一些临时的工作空间，这个属性会限制最大能申请的工作空间的容量，如果容量不够的话会导致该网络层不能成功实现而导致错误。另外，还可以通过这个对象设置模型的数据精度。TensorRT默认的数据精度为FP32，我们还可以设置FP16或者INT8，前提是该硬件平台支持这种数据精度。

nvinfer1::IBuilderConfig *config = builder->createBuilderConfig();
config->setMemoryPoolLimit(nvinfer1::MemoryPoolType::kWORKSPACE, 1U << 25);
if (builder->platformHasFastFp16()) {
  config->setFlag(nvinfer1::BuilderFlag::kFP16);

设置IBuilderConfig属性后，就可以启动优化引擎对模型进行优化了，这个过程需要一定的时间，在嵌入式平台上可能会比较久一点。经过TensorRT优化后的序列化模型被保存到IHostMemory对象中，我们可以将其保存到磁盘中，下次使用时直接加载这个经过优化的模型即可，这样就可以省去漫长的等待模型优化的过程。我一般习惯把序列化模型保存到一个后缀为.engine的文件中。

nvinfer1::IHostMemory *serialized_model =
      builder->buildSerializedNetwork(*network, *config);
// 将模型序列化到engine文件中
std::stringstream engine_file_stream;
engine_file_stream.seekg(0, engine_file_stream.beg);
engine_file_stream.write(static_cast<const char *>(serialized_model->data()),
                        serialized_model->size());
const std::string engine_file_path = "yolov5m.engine";
std::ofstream out_file(engine_file_path);
assert(out_file.is_open());
out_file << engine_file_stream.rdbuf();
out_file.close();

由于IHostMemory对象保存了模型所有的信息，所以前面创建的IBuilder、IParser等对象已经不再需要了，可以通过delete进行释放。

delete config;
delete parser;
delete network;
delete builder;

IHostMemory对象用完后也可以通过delete进行释放。

2. 模型反序列化

通过上一步得到优化后的序列化模型后，如果要用模型进行推理，那么还需要创建一个IRuntime接口的实例，然后通过其模型反序列化接口去创建一个ICudaEngine对象：

nvinfer1::IRuntime *runtime = nvinfer1::createInferRuntime(logger);
nvinfer1::ICudaEngine *engine = runtime->deserializeCudaEngine(
    serialized_model->data(), serialized_model->size());
delete serialized_model;
delete runtime;

如果是直接从磁盘中加载.engine文件也是差不多的步骤，首先从.engine文件中把模型加载到内存中，然后再通过IRuntime接口对模型进行反序列化即可。

const std::string engine_file_path = "yolov5m.engine";
std::stringstream engine_file_stream;
engine_file_stream.seekg(0, engine_file_stream.beg);
std::ifstream ifs(engine_file_path);
engine_file_stream << ifs.rdbuf();
ifs.close();
engine_file_stream.seekg(0, std::ios::end);
const int model_size = engine_file_stream.tellg();
engine_file_stream.seekg(0, std::ios::beg);
void *model_mem = malloc(model_size);
engine_file_stream.read(static_cast<char *>(model_mem), model_size);
nvinfer1::IRuntime *runtime = nvinfer1::createInferRuntime(logger);
nvinfer1::ICudaEngine *engine = runtime->deserializeCudaEngine(model_mem, model_size);
delete runtime;
free(model_mem);

3. 模型推理

ICudaEngine对象中存放着经过TensorRT优化后的模型，不过如果要用模型进行推理则还需要通过createExecutionContext()函数去创建一个IExecutionContext对象来管理推理的过程：

nvinfer1::IExecutionContext *context = engine->createExecutionContext();

现在让我们先来看一下使用TensorRT框架进行模型推理的完整流程：

对输入图像数据做与模型训练时一样的预处理操作。
把模型的输入数据从CPU拷贝到GPU中。
调用模型推理接口进行推理。
把模型的输出数据从GPU拷贝到CPU中。
对模型的输出结果进行解析，进行必要的后处理后得到最终的结果。

由于模型的推理是在GPU上进行的，所以会存在搬运输入、输出数据的操作，因此有必要在GPU上创建内存区域用于存放输入、输出数据。模型输入、输出的尺寸可以通过ICudaEngine对象的接口来获取，根据这些信息我们可以先为模型分配输入、输出缓存区。

void *buffers[2];
// 获取模型输入尺寸并分配GPU内存
nvinfer1::Dims input_dim = engine->getBindingDimensions(0);
int input_size = 1;
for (int j = 0; j < input_dim.nbDims; ++j) {
  input_size *= input_dim.d[j];
cudaMalloc(&buffers[0], input_size * sizeof(float));
// 获取模型输出尺寸并分配GPU内存
nvinfer1::Dims output_dim = engine->getBindingDimensions(1);
int output_size = 1;
for (int j = 0; j < output_dim.nbDims; ++j) {
  output_size *= output_dim.d[j];
cudaMalloc(&buffers[1], output_size * sizeof(float));
// 给模型输出数据分配相应的CPU内存
float *output_buffer = new float[output_size]();

到这一步，如果你的输入数据已经准备好了，那么就可以调用TensorRT的接口进行推理了。通常情况下，我们会调用IExecutionContext对象的enqueueV2()函数进行异步地推理操作，该函数的第二个参数为CUDA流对象，第三个参数为CUDA事件对象，这个事件表示该执行流中输入数据已经使用完，可以挪作他用了。如果对CUDA的流和事件不了解，可以参考我之前写的 这篇文章 。

cudaStream_t stream;
cudaStreamCreate(&stream);
// 拷贝输入数据
cudaMemcpyAsync(buffers[0], input_blob,input_size * sizeof(float),
                  cudaMemcpyHostToDevice, stream);
// 执行推理
context->enqueueV2(buffers, stream, nullptr);
// 拷贝输出数据
cudaMemcpyAsync(output_buffer, buffers[1],output_size * sizeof(float),
                  cudaMemcpyDeviceToHost, stream);
cudaStreamSynchronize(stream);

模型推理成功后，其输出数据被拷贝到output_buffer中，接下来我们只需按照YOLOv5的输出数据排布规则去解析即可。

4. 小结

在介绍如何解析YOLOv5输出数据之前，我们先来总结一下用TensorRT框架部署ONNX模型的基本流程。

如上图所示，主要步骤如下：

实例化Logger;
创建Builder;
创建Network;
使用Parser解析ONNX模型，构建Network；
设置Config参数；
优化网络，序列化模型；
反序列化模型；
拷贝模型输入数据（HostToDevice），执行模型推理；
拷贝模型输出数据（DeviceToHost），解析结果。

5解析模型输出结果

YOLOv5有3个检测头，如果模型输入尺寸为640x640，那么这3个检测头分别在80x80、40x40和20x20的特征图上做检测。让我们先用Netron工具来看一下YOLOv5 ONNX模型的结构，可以看到，YOLOv5的后处理操作已经被包含在模型中了（如下图红色框内所示），3个检测头分支的结果最终被组合成一个张量作为输出。

YOLOv5的3个检测头一共有(80x80+40x40+20x20)x3=25200个输出单元格，每个单元格输出x,y,w,h,objectness这5项再加80个类别的置信度总共85项内容。经过后处理操作后，目标的坐标值已经被恢复到以640x640为参考的尺寸，如果需要恢复到原始图像尺寸，只需要除以预处理时的缩放因子即可。这里有个问题需要注意：由于在做预处理的时候图像做了填充，原始图像并不是被缩放成640x640而是640x480，使得输入给模型的图像的顶部被填充了一块高度为80的区域，所以在恢复到原始尺寸之前，需要把目标的y坐标减去偏移量80。

详细的解析代码如下：

float *ptr = output_buffer;
for (int i = 0; i < 25200; ++i) {
  const float objectness = ptr[4];
  if (objectness >= 0.45f) {
    const int label =
        std::max_element(ptr + 5, ptr + 85) - (ptr + 5);
    const float confidence = ptr[5 + label] * objectness;
    if (confidence >= 0.25f) {
      const float bx = ptr[0];
      const float by = ptr[1];
      const float bw = ptr[2];
      const float bh = ptr[3];
      Object obj;
      // 这里要减掉偏移值
      obj.box.x = (bx - bw * 0.5f - x_offset) / ratio;
      obj.box.y = (by - bh * 0.5f - y_offset) / ratio;
      obj.box.width = bw / ratio;
      obj.box.height = bh / ratio;
      obj.label = label;
      obj.confidence = confidence;
      objs->push_back(std::move(obj));

知乎用户 是个啥？ · Accepted Answer

我想往模型部署优化，算法落地这个方向发展，请问该怎么学习与规划？Q：当年作为核心SE在MindSpore团队从0到1构建了MindSpore Lite推理引擎！现在在华为和荣耀手机上的AI能力都是基于Lite推理引擎，调用次数已经超过10亿/天啦！！！

所以就基于之前的工作，总结了《AI推理引擎：核心原理》这个系列的内容：从推理系统整体架构开始，然后到模型小型化、模型压缩，在真正推理之前需要进行模型转换和图优化，最后到kernel和runtime优化。还是很有意思的，也花了很多时间，希望能够帮助到大家啦！！！

在讲推理引擎/推理系统，又或者是推理部署之前呢，我们回顾下训练和推理的区别 ^_^

训练过程通过设定数据处理方式，并设计合适的网络模型结构以及损失函数和优化算法，在此基础上将数据集以小批量（mini-batch）反复进行前向计算并计算损失，然后反向计算梯度利用特定的优化函数来更新模型，来使得损失函数达到最优的结果。训练过程最重要的就是梯度的计算和反向传播。

而推理就是在训练好的模型结构和参数基础上，做一次前向传播得到模型输出的过程。相对于训练而言，推理不涉及梯度和损失优化。推理的最终目标是将训练好的模型部署生产环境中。真正让 AI 能够运用起来。推理引擎可以将深度学习模型部署到云（Cloud）端或者边缘（Edge）端，并服务用户的请求。模型训练过程好比是传统软件工程中的代码开发的过程，而开发完的代码势必要打包，部署给用户使用，那么推理系统就负责应对模型部署的生命周期中遇到的挑战和问题。

当推理系统将完成训练的模型进行部署，并在服务时还需要考虑设计和提供负载均衡，请求调度，加速优化，多副本和生命周期管理等支持。相比深度学习框架等为训练而设计的系统，推理系统不仅关注低延迟，高吞吐，可靠性等设计目标，同时受到资源，服务等级协议（Service-Level Agreement），功耗等约束。本章将围绕深度学习推理系统的设计，实现与优化内容展开，同时还会在最后介绍部署和 MLOps 等内容。

移动端的推理引擎应该挺多的了，google在2017年推出了TF-Lite，腾讯在2017年推出了ncnn，Apple在2017也推出了CoreML，阿里在2018年推出了MNN，华为2019年推出了MindSpsore-Lite。距今已经过去了快5年的时间，技术上也接近收敛。下面让我们一起打开推理引擎的技术吧！

系列内容

《推理系统》推理系统是本分享的重点概述，推理就是在训练好的模型结构和参数基础上，执行前向传播得到模型输出的过程。相对于训练而言，推理不涉及梯度和损失优化。推理的最终目标是将训练好的模型部署生产环境中，真正让 AI 能够运用起来。推理引擎可以将深度学习模型部署到云（Cloud）端或者边缘（Edge）端，并服务用户的请求。模型训练过程好比是传统软件工程中的代码开发的过程，而开发完的代码势必要打包，部署给用户使用，那么推理系统就负责应对模型部署的生命周期中遇到的挑战和问题。
《轻量网络》在端侧推理引擎中，主要是执行轻量的模型结构。主要思想是针对神经网络模型设计更高效的网络计算方式，从而使神经网络模型的参数量减少的同时，不损失网络精度，并进一步提高模型的执行效率。本节主要集中介绍模型小型化中需要注意的参数和指标，接着深入了解CNN经典的轻量化模型和Transformer结构的轻量化模型。
《模型压缩》模型压缩跟轻量化网络模型不同，压缩主要是对轻量化或者非轻量化模型执行剪枝、蒸馏、量化等压缩算法和手段，使得模型更加小、更加轻便、更加利于执行。
《模型转换&优化》在这一节当中分为模型转换和模型优化，在整体架构图中属于离线模型转换模块。一方面，推理引擎需要把不同 AI 框架训练得到的模型进行转换；另外一方面需要对转换后的模型进行图优化等技术。
《Kernel优化》在上层应用或者 AI 网络模型中，看到的是算子；但是在推理引擎实际执行的是具体的 Kernel，而推理引擎中 CNN 占据了主要是得执行时间，因此其 Kernel 优化尤为重要。

希望这个系列能够给大家、朋友们带来一些些帮助，也希望自己能够继续坚持完成所有内容哈！

然这里不是打广告，而是希望跟所有关注开源项目的好朋友一起探讨研究，共同促进学习讨论，也欢迎各位专家和朋友多拍拍砖，多提点意见。相关的材料都开源在这里：

https:// github.com/chenzomi12/D eepLearningSystem/tree/main/Inference

具体大纲

通过《推理引擎：核心原理》系列，我们会给大家介绍下面一些内容：

名称	具体内容
推理系统	推理系统整体介绍，推理引擎架构梳理
轻量网络	轻量化主干网络，MobileNet等SOTA模型介绍
模型压缩	模型压缩4件套，量化、蒸馏、剪枝和二值化
模型转换&优化	AI框架训练后模型进行转换，并对计算图优化
Kernel优化	Kernel层、算子层优化，对算子、内存、调度优化

1. 推理系统

推理内容介绍（ video ）
什么是推理系统（ video ）
推理流程全景（ video ）
推理系统架构（ video ）
(上) 推理引擎架构（ video ）
(下) 推理引擎架构（ video ）

2. 模型小型化

推理参数了解（ video ）
(上) CNN模型小型化（ video ）
(下) CNN模型小型化（ video ）
Transformer小型化（ video ）

3. 模型压缩

压缩四件套介绍（ video ）
低比特量化原理（ video ）
感知量化训练 QAT（ video ）
训练后量化PTQ与部署（ video ）
模型剪枝（ video ）
(上) 知识蒸馏原理（ video ）
(下) 知识蒸馏算法（ video ）

4. 模型转换

基本介绍（ video ）
架构与文件格式（ video ）
自定义计算图IR（ video ）
流程细节（ video ）

5. 图优化模块

计算图优化策略（ video ）
常量折叠&冗余节点消除（ video ）
算子融合/替换/前移（ video ）
数据布局转换&内存优化（ video ）

6. Kernel优化

Kernel优化架构（ video ）
卷积操作基础原理（ video ）
Im2Col算法（ video ）
Winograd算法（ video ）
QNNPack算法（ video ）
推理内存布局（ video ）

完结，撒花！