python不解压读取zip压缩包图片/文件

限于电脑上空间不够,没有办法将上百G的数据集解压到电脑上,因此需要一种方法能够直接读取压缩包内的图片进行训练。

首先,代码如下:

#!/usr/bin/env python3
#coding=utf-8
#============================#
#Program:readzip.py
#       不解压读取.zip压缩包内的图片并显示
#Date:19-11-21
#Author:liheng
#Version:V1.0
#============================#
import zipfile
import cv2
import numpy as np
zipfile_path = '/home/liheng/ADAS_Video/myzip.zip'
with zipfile.ZipFile(zipfile_path, mode='r') as zfile: # 只读方式打开压缩包
    nWaitTime = 1
    for name in zfile.namelist():  # 获取zip文档内所有文件的名称列表
        if '.jpg' not in name:# 仅读取.jpg图片,过滤掉文件夹,及其他非.jpg后缀文件
            continue
        print(name)
        with zfile.open(name,mode='r') as image_file:
            content = image_file.read() # 一次性读入整张图片信息
            image = np.asarray(bytearray(content), dtype='uint8')
            image = cv2.imdecode(image, cv2.IMREAD_COLOR)
            cv2.imshow('image', image)
            key = cv2.waitKey(nWaitTime)
            if 27 == key:  # ESC
                break
            elif 32 == key:  # space
                nWaitTime = not nWaitTime
    zfile.close()

压缩包内容如下:

python 判断压缩文件格式 python读取压缩包内容_python 判断压缩文件格式

这个过程分为两步进行:1)读取压缩包及压缩包中的文件;2)将读取的文件恢复为图像。主要采用了 zipfile 模块以及 opencv imdecode 函数。

读取压缩包可以采用python的 zipfile 模块进行。通过 zipfile.ZipFile() 以只读方式打开指定的压缩包;随后,利用 zfile.namelist() 获取压缩包内可解压的所有文件列表名称,该函数不仅返回有文件,同时也有文件夹,由于我只需要获取 .jpg 后缀的图片文件,因此需要进行一次过滤处理;最后,根据文件名, zfile.open() 打开文件, image_file.read() 一次性读入文件所有内容到内存中。如果读取的是一个 .txt 文本文件,也可以采用 readline() readlines() 函数读取一行或者读取所有行文件内容进行解析,同时,也可以指定编码格式进行转换。

从内存中恢复图像信息,主要采用 cv2.imdecode() 函数,该函数一般和 cv2.imencode() 配套使用,用于网络图片传输,在我之前的ADAS控制模块中,视频的传输就利用到了这两个函数,之前已有过介绍。当然,此处我仅利用图片解码函数: cv2.imdecode() ,在转换前,需要利用 numpy np.asarray 将数据转换为 uint8 格式(0-255之间)

cv2.imdecode() 函数从指定的内存缓存中读取数据,并把数据转换(解码)成图像格式;主要用于从网络传输数据中恢复出图像。

cv2.imencode() 函数是将图片格式转换(编码)成流数据,赋值到内存缓存中;主要用于图像数据格式的压缩,方便网络传输。