如何用 C++ 部署深度学习模型?

我现在读研一,从本科四大坑里跳了出来,目前做机器视觉方向,深度学习基本上入门了。最近了解到以后工作的话要部署模型需要用到C++,但我只学过一些基础的C…
关注者
410
被浏览
401,722

23 个回答

路过,顺便来答一下。一般情况下,我们在训练的时候会使用pytorch、tensorflow或keras(基本算法工程师这几个框架都会用过),我现在用的比较多的是pytorch。在训练完模型后,pytorch的模型文件pth,通常会先通过torch.onnx.export来导出ONNX文件,得到一个静态的模型文件。然后再考虑后续的部署(当然现在torch也支持转torchscript了),移动端部署的话,目前看到用的主要还是C++,还要看你用的具体的推理引擎,有些推理引擎对ONNX文件进行二次转换。比如你准备用MNN来部署,那么ONNX就需要通过MNNConverter进行转换,NCNN则需要通过onnx2ncnn工具转换等等。如果是ONNXRuntime C++的话,可以直接用ONNX文件,而且以我使用的情况看,ONNXRuntime对动态维度输入的支持是比较nice的,对ONNX算子的支持当然是最完善的了。MNN对ONNX的算子兼容性也比较好,基本没遇到ONNX算子转不过来的情况;NCNN支持的算子相对MNN少,但是资料多啊,是鼻祖级别的存在,up主一人扛起一片天。TNN是则新秀选手,对算子的支持也还不错,未来可期;服务端部署则不一定要用到C++,看具体的场景。服务端的推理引擎也不少,比如ONNXRuntime-GPU版本,tensorrt等等,也可以直接用torch的C++库libtorch。

平时我也会梳理一下推理引擎的应用资料,分享出来给大家吧~ 另外,我也顺手捏了一个基于各个推理引擎的C++ AI模型工具箱,目前将近 2k 星吧,作为 学习资源 我还是比较推荐的,也分享一下吧~

模型C++推理案例

目前 80多C++ 推理例子,能编个lib来用,感兴趣的同学可以看看,就不多介绍了

开源项目 描述 Github
Lite.AI.ToolKit A lite C++ toolkit of awesome AI models.(一个开箱即用的C++ AI模型工具箱,emmm,平时学一些新算法的时候顺手捏的,目前包含80+流行的开源模型。不知不觉已经将近 2k ⭐️ star啦,欢迎大家来点star⭐️ 、提issue呀~) github.com/DefTruth/lit

如果觉得有用不妨给个star支持一下吧~

服务端部署资料

移动端部署资料

模型转换资料

推理引擎编译资料

推理引擎C++工程实践解析

建议可以看看我捏的一个小专栏,有很多详细的讲解哦~(补充说明一下:当然我只是业余在玩,对各个引擎的原理和实现研究的不是很深入,主要是应用,更关注怎么实现业务算法本身的前后逻辑,虽然工作中也用到一些推理引擎,但我主要的工作还是算法研究。所以你如果要研究底层的东西的话,我整理的这点资料是远远不够的,应该去多看看NCNN、MNN这些优秀推理引擎的源码,给主流的推理引擎修修bug,提个PR什么的,可能会比你捏很多应用层的东西更有帮助)

最后,嗯,今天是新年初一啊, 祝大家虎年大吉,搞钱顺利 ~ 如果你对更多的C++推理应用感兴趣, 欢迎点赞、关注和收藏哈~

最近更新:FastDeploy来啦 ~

前言

大家好,我是DefTruth, 一枚平平无奇的代码仔 ~ 所谓好记性不如烂笔头,写点技术水文,既是输出,也是一种输入。之前一直在写些和模型部署相关的水文,业余时间也会去维护一下自己的开源项目 lite.ai.toolkit 。不过最近有段时间没有更新文章了,这是为什么呢?哈哈哈,不卖关子,这是由于最近几个月,高密度地参与到了 FastDeploy 的开发当中。那么 FastDeploy 又是一个怎样的工具呢?他能帮助大家解决什么样的问题呢?接下来就和大家来分享一下这个部署利器。

这篇文章是【FastDeploy技术分享】专栏第一弹,后续还会和大家分享FastDeploy更多的使用技巧,欢迎关注 ~

正文内容

以下内容转载于微信公众号: 飞桨PaddlePaddle ,更多精彩内容,请关注 飞桨PaddlePaddle

人工智能产业应用发展的越来越快,开发者需要面对的适配部署工作也越来越复杂。层出不穷的算法模型、各种架构的AI硬件、不同场景的部署需求(服务器、服务化、嵌入式、移动端等)、不同操作系统和开发语言,为AI开发者项目落地带来不小的挑战。

为了解决AI部署落地难题,我们发起了FastDeploy项目。FastDeploy针对产业落地场景中的重要AI模型,将模型API标准化,提供下载即可运行的Demo示例。相比传统推理引擎,做到端到端的推理性能优化。FastDeploy还支持在线(服务化部署)和离线部署形态,满足不同开发者的部署需求。 经过为期一年的高密度打磨,FastDeploy目前具备3类特色能力:

  • 全场景 :支持GPU、CPU、Jetson、ARM CPU、瑞芯微NPU、晶晨NPU、恩智浦NPU等多类硬件,支持本地部署、服务化部署、Web端部署、移动端部署等,支持CV、NLP、Speech三大领域,支持图像分类、图像分割、语义分割、物体检测、字符识别(OCR)、人脸检测识别、人像扣图、姿态估计、文本分类、信息抽取、行人跟踪、语音合成等16大主流算法场景。
  • 易用灵活 :3行代码完成AI模型的部署,1行代码快速切换后端推理引擎和部署硬件,统一API实现不同部署场景的零成本迁移。提供了150+热门AI模型的部署Demo。
  • 极致高效 :相比传统深度学习推理引擎只关注模型的推理时间,FastDeploy则关注模型任务的端到端部署性能。通过高性能前后处理、整合高性能推理引擎、一键自动压缩等技术,实现了AI模型推理部署的极致性能优化。 项目传送门

以下将对该3大特性做进一步技术解读,全文大约2100字,预计阅读时长3分钟。

一. 3大特性篇 二. 3步部署实战篇,抢先看

  • CPU/GPU部署实战
  • Jetson部署实战
  • RK3588部署实战(RV1126、晶晨A311D等NPU类似)

3大特性解读

  • 全场景:1套代码云边端多平台多硬件一网打尽,覆盖CV、NLP、Speech支持Paddle Inference、TensorRT、OpenVINO、ONNX Runtime、Paddle Lite、RKNN等后端,覆盖常见的NVIDIA GPU、x86 CPU 、ARM CPU(移动端、ARM开发板)、瑞芯微NPU(RK3588、RK3568、RV1126、RV1109、RK1808)、晶晨NPU(A311D、S905D)等云边端场景的多类几十款AI硬件部署。同时支持服务化部署、离线CPU/GPU部署、端侧和移动端部署方式。针对不同硬件,统一API保证1套代码在数据中心、边缘部署和端侧部署无缝切换。

FastDeploy支持CV、NLP、Speech三大AI领域,覆盖16大类算法(图像分类、图像分割、语义分割、物体检测、字符识别(OCR) 、人脸检测、人脸关键点检测、人脸识别、人像扣图、视频扣图、姿态估计、文本分类 信息抽取 文图生成、行人跟踪、语音合成)。支持飞桨PaddleClas、PaddleDetection、PaddleSeg、PaddleOCR、PaddleNLP、PaddleSpeech 6大热门AI套件的主流模型,同时也支持生态(如PyTorch、ONNX等)热门模型的部署。

  • 易用灵活3行代码完成模型部署,1行命令切换推理后端和硬件,快速体验150+热门模型部署 FastDeploy三行代码可完成AI模型在不同硬件上的部署,极大降低了AI模型部署难度和工作量。一行命令切换TensorRT、OpenVINO、Paddle Inference、Paddle Lite、ONNX Runtime、RKNN等不同推理后端和对应硬件。低门槛的推理引擎后端集成方案,平均一周即可完成任意硬件推理引擎的接入使用,解耦前后端架构设计,简单编译测试即可体验FastDeploy支持的AI模型。开发者可以根据模型API实现相应模型部署,也可以选择git clone一键获取150+热门AI模型的部署示例Demo,快速体验不同模型的推理部署。


  • FastDeploy部署不同模型
# PP-YOLOE的部署 
import fastdeploy as fd
import cv2
model = fd.vision.detection.PPYOLOE("model.pdmodel", 
                                    "model.pdiparams", 
                                     "infer_cfg.yml")
im = cv2.imread("test.jpg")
result = model.predict(im)# YOLOv7的部署
import fastdeploy as fd
import cv2
model = fd.vision.detection.YOLOv7("model.onnx")
im = cv2.imread("test.jpg")
result = model.predict(im)
  • FastDeploy切换后端和硬件
# PP-YOLOE的部署
import fastdeploy as fd
import cv2
option = fd.RuntimeOption()
option.use_cpu()
option.use_openvino_backend() # 一行命令切换使用 OpenVINO部署
model = fd.vision.detection.PPYOLOE("model.pdmodel", 
                                    "model.pdiparams", 
                                    "infer_cfg.yml",
                                    runtime_option=option)
im = cv2.imread("test.jpg")
result = model.predict(im)
  • 极致高效一键压缩提速,预处理加速,端到端性能优化,提升AI算法产业落地 FastDeploy在吸收TensorRT、OpenVINO、Paddle Inference、Paddle Lite、ONNX Runtime、RKNN等高性能推理优势的同时,通过端到端的推理优化解决了传统推理引擎仅关心模型推理速度的问题,提升整体推理速度和性能。集成自动压缩工具,在参数量大大减小的同时(精度几乎无损),推理速度大幅提升。使用CUDA加速优化预处理和后处理模块,将YOLO系列的模型推理加速整体从41ms优化到25ms。端到端的优化策略,彻底解决AI部署落地中的性能难题。 更多性能优化,欢迎关注GitHub了解详情

3步部署实战篇 CPU/GPU部署实战(以YOLOv7为例)

  • 安装FastDeploy部署包,下载部署示例(可选,也可3行API实现部署代码)
pip install fastdeploy-gpu-python -f https://www.paddlepaddle.org.cn/whl/fastdeploy.html
git clone https://github.com/PaddlePaddle/FastDeploy.git
cd examples/vision/detection/yolov7/python/
  • 准备模型文件和测试图片
wget https://bj.bcebos.com/paddlehub/fastdeploy/yolov7.onnx
wget https://gitee.com/paddlepaddle/PaddleDetection/raw/release/2.4/demo/000000014439.jpg
  • CPU/GPU推理模型
# CPU推理
python infer.py --model yolov7.onnx --image 000000014439.jpg --device cpu
# GPU推理
python infer.py --model yolov7.onnx --image 000000014439.jpg --device gpu
# GPU上使用TensorRT推理
python infer.py --model yolov7.onnx --image 000000014439.jpg --device gpu --use_trt True
  • 推理结果示例

Jetson部署实战(以YOLOv7为例)

  • 安装FastDeploy部署包,配置环境变量
git clone https://github.com/PaddlePaddle/FastDeploy cd FastDeploy
mkdir build && cd build
cmake .. ­DBUILD_ON_JETSON=ON ­DENABLE_VISION=ON ­DCMAKE_INSTALL_PREFIX=${PWD}/install make ­j8
make install
cd FastDeploy/build/install
source fastdeploy_init.sh
  • 准备模型文件和测试图片
wget https://bj.bcebos.com/paddlehub/fastdeploy/yolov7.onnx
wget https://gitee.com/paddlepaddle/PaddleDetection/raw/release/2.4/demo/000000014439.jpg
  • 编译推理模型
cd examples/vision/detection/yolov7/cpp
cmake .. ­DFASTDEPLOY_INSTALL_DIR=${FASTDEPOLY_DIR} 
mkdir build && cd build
make ­j
# 使用TensorRT推理(当模型不支持TensorRT时会自动转成使用CPU推理)
./infer_demo yolov7s.onnx 000000014439.jpg 2
  • 推理结果示例

RK3588部署实战 以轻量化检测网络PicoDet为例

  • 安装FastDeploy部署包,下载部署示例(可选,也可3行API实现部署代码)
# 参考编译文档,完成FastDeploy编译安装
# 参考文档链接:https://github.com/PaddlePaddle/FastDeploy/blob/develop/docs/cn/build_and_install/rknpu2.md
# 下载部署示例代码
git clone https://github.com/PaddlePaddle/FastDeploy.git
cd examples/vision/detection/paddledetection/rknpu2/python
  • 准备模型文件和测试图片
wget https://bj.bcebos.com/fastdeploy/models/rknn2/picodet_s_416_coco_npu.zip
unzip -qo picodet_s_416_coco_npu.zip
## 下载Paddle静态图模型并解压
wget https://bj.bcebos.com/fastdeploy/models/rknn2/picodet_s_416_coco_npu.zip
unzip -qo picodet_s_416_coco_npu.zip
# 静态图转ONNX模型,注意,这里的save_file请和压缩包名对齐
paddle2onnx --model_dir picodet_s_416_coco_npu \
 --model_filename model.pdmodel \
 --params_filename model.pdiparams \
 --save_file picodet_s_416_coco_npu/picodet_s_416_coco_npu.onnx \
 --enable_dev_version True
python -m paddle2onnx.optimize --input_model picodet_s_416_coco_npu/picodet_s_416_coco_npu.onnx \
 --output_model picodet_s_416_coco_npu/picodet_s_416_coco_npu.onnx \
 --input_shape_dict "{'image':[1,3,416,416]}"
# ONNX模型转RKNN模型
# 转换模型,模型将生成在picodet_s_320_coco_lcnet_non_postprocess目录下
python tools/rknpu2/export.py --config_path tools/rknpu2/config/RK3588/picodet_s_416_coco_npu.yaml
# 下载图片