文章目录1、检查显卡的计算力打开官网,检查你相应型号显卡的算力:比如GTX1080 is 6.1, Tesla T4 is 7.5.2、检查是否支持FP16和INT8打开网页查看
简述TFLOPS
TFLOPS是floating po
int
operations per second每秒所执行的浮点运算次数的英文缩写。
它是衡量一个电脑计算能力的标准。最后面的S是秒的意思,最前面的T是个常量。1P=1024T 1T=1024G 1G=1024M 1M=1024K 这里的TFLOPS就是每秒运算能力为1T=10的12次方
1TFLOPS等于1万亿次浮点指令
TFlops/s,可以简单写为T/s, 是数据流量的计数单位,意思是”1万亿次浮点指令每秒”,它是衡量一个电脑计算能力的标准。
被安利了很久说2080ti下使用
fp16
可以提速而且几乎不影响效果,所以今天试着弄了一下,整体感觉是显存占用少很多,速度比较快,但是还是会影响准确度,而且一些非官方提供的模块使用起来不方便(因为不
支持
fp16
)。这里记录一下安装过程和详细的使用体验,毕竟我金鱼记忆。
1. 配置apex
使用
fp16
,官方推荐用apex包。在安装apex时需要注意driver和cuda版本对应,不然可能会报错(...
本工程基于VGG16 Refindet SSD进行目标检测,在没有使用TensorRT库的时,测试没帧图片所需时间130ms(从读入原始图片到测试出最终的结果)。使用半精度(
FP16
:float16)每帧图片的测试时间降到50~60ms;使用单精度(FP32:float32)每帧图片给的测试时间降到80~90ms。
使用TensorRT提速时如何操作?
首先平台
支持
半精度计算,这个如何
判断
?