蘑菇街自研服务框架如何提升在线推理效率？

文章来源： infoq 范德良

广告关闭

上云精选

2核2G云服务器每月9.33元起，个人开发者专属3年机低至2.3折

在线服务(Online Serving)，又称为在线推理(Inference)，是机器学习工程中的重要的一环，通过在线服务，训练出来的模型得以释放价值。蘑菇街计算视觉拥有大几十个服务，每天调用次数高达千万级别。为了高效稳定的支撑在线服务，蘑菇街技术团队研发在线服务框架，它支持Tensorflow、Pytorch 和 Openvino 等深度学习框架，支持运行在 CPU 和 GPU 资源上，并且单显卡支持运行多个模型，大大提升 GPU 资源利用率。

Online Serving 简介

从本质而言，在线服务就是提供(http, rpc)等接口，用户输入 X, X 经过 pre-process 处理成符合模型输入的参数，经由模型推理后得到 Y，Y 经过 post-process 处理成符合用户认知的数据格式，最后将结果返回。

第 2 步和训练中的 evalute/test 相应步骤几乎一样，只是在线推理下的 batch size 往往为 1，远远小于训练过程中的 batch size，故在线推理下的显卡和显存的利用率相对训练更低。

1. X = pre_process(X)
2. Y = model.predict(X)
3. Y = post_process(Y)

以 mnist 为例，其模型输入为 28 * 28 的图片，模型输出为 1 * 10 的向量。从用户体验角度来看，客户端更期望的输入是一张图片的 URL，返回结果是预测的数字，相比 10 维向量，数字更符合人类的认知。所以从易用性出发，在线服务不仅需要预测模块(2)，还需要预处理(1)和后处理模块(3)，方能为用户提供友好的服务。很遗憾的是，当前大部分开源的在线服务框架或者云服务，仅仅提供了模型预测功能。

开源的 Online Serving 现状

纵观业界，开源的在线服务项目可谓形态灵活、百花齐放，但也呈现出微服务化、容器化部署的特点，本节选择几个具备代表性的开源项目进行分析。

Tensorflow

TensorFlow Serving is a flexible, high-performance serving system for machine learning models, designed for production environments.

正如官网所述，基于 C++ 编写的 Tensorflow Serving 注定是一个高性能的在线服务系统框架，它支持 Tensorflow，Pytorch 等深度学习框架训练导出的模型(通常基于 ONNX 完成模型转换)，而且部署非常方便，支持多个版本的模型，详细的例子请见官网。特别在结合 K8S + Docker，完美的解决了资源管理和调度、服务弹性部署、服务发现等痛点，从而对外提供稳定可靠的服务。

Tensorflow Serving 的缺点也很明显，正如本文第一节所讲，它缺乏预处理和后处理相关的逻辑，所以影响用户体验，这点由官网样例也能看出来，用户需要关注调用 API 时传入的数据及其维度和格式，解析 protobuf 等等。另外一个痛点是 Tensorflow 对其它深度学习框架生成的模型不够友好，比如卷积和池化时的 padding 参数，不同的深度学习框架的存在差异，例如博文 Running Pytorch models in Tensorflow 。

Pytorch

对于 Pytorch 的 Online Serving，社区并没有提供相关的框架，仅在官网文档 model-serving-in-pyorch 给出了一个概述，为不同场景下的 Online Serving 介绍了一些可行性的方案。

云化场景：基于 AWS Sagemaker、Azure Machine Learning 等公有云服务进行部署。
本地场景：采用 flask 构建自己的微服务进行部署，例如 Deploy your PyTorch model to Production 。