FasterR-CNN，R-FCN，SSD，FPN，RetinaNet,YOLOv3速度和准确性比较

AI算法与图像处理

编辑：zero
关注搜罗最好玩的计算机视觉论文和应用， AI算法与图像处理 微信公众号 ，获得第一手计算机视觉相关信息

很难在不同的目标检测器之间进行公平的比较。对于哪个模型是最好的？这个问题是没有直接的答案。对于现实生活中的应用，我们选择平衡准确性和速度。除了检测器类型外，我们还需要了解影响性能的其他选择：

Feature extractors (VGG16, ResNet, Inception, MobileNet).
Output strides for the extractor.
Input image resolutions.
Matching strategy and IoU threshold (how predictions are excluded in calculating loss).
Non-max suppression IoU threshold.
Hard example mining ratio (positive v.s. negative anchor ratio).
The number of proposals or predictions.
Boundary box encoding.
Data augmentation.
Training dataset.
Use of multi-scale images in training or testing (with cropping).
Which feature map layer(s) for object detection.
Localization loss function.
Deep learning software platform used.
Training configurations including batch size, input image resize, learning rate, and learning rate decay.

最糟糕的是，技术发展如此之快，以至于任何比较都很快变得过时。在这里，我们总结了各个论文的结果，因此您可以完整分析和对比它们。然后，我们根据Google Research中总结得出一篇综述。通过在一种情况下提出多种观点，我们希望我们可以更好地了解性能指标。

Performance results

在本节中，我们总结了相应论文报告的性能。随时快速浏览本节。

Faster R-CNN（ https:// arxiv.org/pdf/1506.0149 7.pdf ）

这是PASCAL VOC 2012测试集的结果。我们对代表Faster R-CNN性能的最后3行感兴趣。第二列代表RPN网络制定的RoI数量。第三列代表使用的训练数据集。第四列是测量精度的平均平均精度（mAP）。

mAP： https:// medium.com/@jonathan_hu i/map-mean-average-precision-for-object-detection-45c121a31173

PASCAL VOC 2012测试集的结果

MS COCO上的结果

使用PASCAL VOC 2007测试集在K40 GPU上计时，以毫秒为单位。

R-FCN ( https:// arxiv.org/pdf/1605.0640 9.pdf )

PASCAL VOC 2012测试集的结果

（对某些结果使用了多尺度的训练和测试。）

MS COCO上的结果

SSD ( https:// arxiv.org/pdf/1512.0232 5.pdf )

这是使用300×300和512×512输入图像的PASCAL VOC 2007、2012和MS COCO的结果。

（SSD300 *和SSD512 *对小对象应用数据增强以改善mAP。）

性能：

Speed is measure with a batch size of 1 or 8 during inference

（此处的YOLO是指比YOLOv2或YOLOv3慢的v1）

MS COCO的结果：

YOLO （ https:// arxiv.org/pdf/1612.0824 2.pdf ）

PASCAL VOC 2007测试集的结果。

（我们在此处添加了VOC 2007测试，因为它具有针对不同图像分辨率的结果。）

PASCAL VOC 2012测试集的结果。

MS COCO上的结果。

YOLOv3 ( https:// pjreddie.com/media/file s/papers/YOLOv3.pdf )

MS COCO上的结果

YOLOv3的性能

FPN ( https:// arxiv.org/pdf/1612.0314 4.pdf )

MS COCO上的结果。

RetinaNet ( https:// arxiv.org/pdf/1708.0200 2.pdf )

MS COCO上的结果

MS COCO测试开发上的速度（ms）与准确性（AP）。

比较论文结果

并排比较不同论文的结果是 不明智的 。这些实验是在不同的设置下完成的。尽管如此，我们还是决定将它们绘制在一起，以便至少您对它们的大致位置有一个大致了解。但是请注意，我们绝对不要直接比较这些数字。

对于以下呈现的结果，使用PASCAL VOC 2007和2012数据对模型进行了训练。mAP是使用PASCAL VOC 2012测试仪测量的。对于SSD，该图表显示了300×300和512×512输入图像的结果。对于YOLO，其结果为288×288、416×461和544×544图像。同一模型的高分辨率图像具有更好的mAP，但处理速度较慢。

*表示应用了小目标数据增强。

**表示结果是根据VOC 2007测试集测得的。之所以包含这些内容，是因为YOLO论文并没有许多VOC 2012测试结果。由于VOC 2007的结果总体上比2012年更好，因此我们添加了R-FCN VOC 2007的结果作为交叉参考（ cross reference）。

输入图像分辨率和特征提取器会影响速度。以下是相应论文报告的最高和最低FPS。但是，下面的结果可能会有很大的偏差，特别是在不同的mAP下进行测量。

COCO数据集上的结果

在最近几年中，许多结果都是使用COCO目标检测数据集专门测量的。COCO数据集很难进行对象检测，通常检测器的mAP会低得多。这是一些关键检测器的比较。

FPN和Faster R-CNN *（使用ResNet作为特征提取器）具有最高的精度（mAP @ [.5：.95]）。RetinaNet使用ResNet构建在FPN之上。因此，RetinaNet实现的最高mAP是结合金字塔特征的效果，特征提取器的复杂性和focal loss的综合影响。但是，请注意，这不是苹果与苹果的比较（apple-to-apple comparison）。稍后我们将展示Google调查，以便进行更好的比较。但是最好先查看每个模型的声明。

Takeaway so far

Single shot detectors 使用较低分辨率的图像时，每秒帧数（FPS）令人印象深刻，但以准确性为代价。这些论文试图证明它们可以击败基于区域的探测器（region based detectors）的准确性。但是，由于高分辨率图像通常用于此类声明，因此结论性较差。因此，他们的情况正在发生变化。另外，应用了不同的优化技术，这使得很难隔离每个模型的优点。实际上，single shot and region based detectors 现在在设计和实现上越来越相似。但是有些保留，我们可以说：

如果不需要实时速度，基于区域的检测器（如Faster R-CNN）将显示出较小的精度优势。
Single shot detectors在这里用于实时处理。但是应用程序需要验证它是否满足其准确性要求。

比较SSD MobileNet，YOLOv2，YOLO9000和Faster R-CNN

实测视频已上传到b站【30分钟时长】 https://www. bilibili.com/video/av75 557343/

Report by Google Research ( https:// arxiv.org/pdf/1611.1001 2.pdf )

Google Research提供了一份调查报告，研究Faster R-CNN，R-FCN和SSD的速度和准确性之间的权衡。（本文不涉及YOLO。）它使用MS COCO数据集进行训练，从而在TensorFLow中重新实现了这些模型。它建立了一个更加受控的环境，并使权衡比较变得更加容易。它还引入了MobileNet，该技术可以以较低的复杂度实现高精度。

Speed v.s. accuracy

最重要的问题不是哪个检测器最好。可能无法回答。真正的问题是，哪种检测器以及哪种配置可以为我们提供您的应用所需的速度和准确性之间的最佳平衡。以下是准确性与速度权衡（时间以毫秒为单位）。

通常，Faster R-CNN更准确，而R-FCN和SSD更快。

使用带有300 proposals的Inception Resnet进行Faster R-CNN，可在所有测试案例中以1 FPS提供最高的准确性。
在针对实时处理的模型中，MobileNet上的SSD具有最高的mAP。

该图还帮助我们找到最佳交易点，以实现良好的速度回报。

使用残差网络(Residual Network)的R-FCN模型在准确性和速度之间取得了很好的平衡，
如果我们将proposals数量限制为50个，则使用Resnet的Faster R-CNN可以达到类似的性能。

特征提取器

本文研究了特征提取器的准确性如何影响检测器的准确性。Faster R-CNN和R-FCN都可以利用更好的特征提取器，但对于SSD来说意义不大。

（x轴是每个特征提取器分类时top 1％的准确率。）

目标大小

对于大物体，即使使用简单的提取器，SSD的性能也很好。使用更好的提取器，SSD甚至可以匹配其他探测器的精度。但是与其他方法相比，SSD在 小物体 上的性能要差得多。

例如，SSD在检测下表中的瓶子时有问题，而其他方法则可以。

输入图像分辨率

更高的分辨率可以显着改善小物体的目标检测能力，同时也可以帮助大物体。当在两个维度上将分辨率降低两倍时，准确度平均降低15.88％，但预测时间（inference time）也平均降低27.4％。

Number of proposals

所生成的proposals数量可以显着影响Faster R-CNN（FRCNN），而不会大大降低准确性。例如，使用Inception Resnet，使用50个proposals而不是300个proposals时，Faster R-CNN可以将速度提高3倍。准确性下降仅4％。由于R-FCN的每个ROI的工作量要少得多，因此速度提高的意义远不那么重要。

GPU时间

这是使用不同特征提取器的不同模型的GPU时间。

尽管许多论文使用FLOPS（浮点运算的数量）来衡量复杂性，但不一定反映准确的速度。模型的密度（sparse v.s. dense model）会影响所需的时间。具有讽刺意味的是，密度较小的模型通常平均需要更长的时间才能完成每个浮点运算。在下图中，大多数密集模型的斜率（FLOPS和GPU比率）大于或等于1，而较浅模型小于1。也就是说，即使整体执行时间较短，密度较小的模型效果也不佳。但是，该原因尚未得到本文的充分研究。