使用zipfile进行解压缩非常方便,这里不赘述zipfile模块的使用,使用方法自行百度。在做自动化测试的过程中,碰到一个问题,就是提供的zip包里的结构不是固定的,有可能只需要解压一次就完成了,有可能解压后里面还存在zip文件,需要继续进行解压缩,zipfile貌似不支持这样的操作,于是乎经过研究,找到了解决方案,一起来看下吧。
测试用的zip目录结构如下,日常应该没有这么多层的结构,仅为了展示效果:
test_zip.zip
--1.zip
--3.zip
--4.zip
--文件xxxx
--文件xxxx
--文件xxxx
--2.zip
--5.zip
--文件xxxx
--文件xxxx
解决思路是这样的,zipfile进行一次解压缩之后,会有新的目录产生,要继续遍历目录查看是否存在新的zip文件,于是乎想到了os.walk(),但os.walk()在遍历到只剩文件的时候就停止了,例如上面的例子,先将test_zip文件进行解压,然后os.walk()在获取到test_zip目录下只有1.zip和2.zip文件后,就终止循环了,那么就暴力一点吧,在os.walk()的外层添加while循环,然后找到合适的条件跳出循环即可,示例代码:
# -*- coding:utf-8 -*-
import zipfile
import os
path = r'D:\TestSamples\samples\extractfile\test_zip1.zip'
# zipfile模块解压一个zip包的基本代码,只需4行即可解压
# 先将目标zip文件进行一次解压,指定解压目录,类似winrar的解压到test_zip\功能
srcfile = zipfile.ZipFile(path)
desdir = path[:path.index('.zip')]
for filename in srcfile.namelist():
srcfile.extract(filename, desdir)
while True:
print '开始while循环'
for root, dirs, files in os.walk(desdir):
isEnd = True # 判定是否还存在zip文件的标志位
print root, dirs, files
for subfile in files:
if subfile.endswith('.zip'):
isEnd = False
subpath = root + '\\' + subfile
if zipfile.is_zipfile(subpath):
print '开始解压:' + subpath
subsrcfile = zipfile.ZipFile(subpath)
for subfilename in subsrcfile.namelist():
subsrcfile.extract(subfilename, root)
if len(dirs) == 0 and not isEnd:
break
if isEnd:
break
运行结果如下:
开始while循环
D:\TestSamples\samples\extractfile\test_zip1 ['test_zip1'] []
D:\TestSamples\samples\extractfile\test_zip1\test_zip1 ['1', '2'] ['1.zip', '2.zip']
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1.zip
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\2.zip
D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1 [] ['3.zip', 'QQ\xbd\xd8\xcd\xbc20150208222141.png']
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1\3.zip
开始while循环
D:\TestSamples\samples\extractfile\test_zip1 ['test_zip1'] []
D:\TestSamples\samples\extractfile\test_zip1\test_zip1 ['1', '2'] ['1.zip', '2.zip']
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1.zip
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\2.zip
D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1 ['3'] ['3.zip', 'QQ\xbd\xd8\xcd\xbc20150208222141.png']
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1\3.zip
D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1\3 [] ['4.zip', 'QQ\xbd\xd8\xcd\xbc20150619073658.png']
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1\3\4.zip
开始while循环
D:\TestSamples\samples\extractfile\test_zip1 ['test_zip1'] []
D:\TestSamples\samples\extractfile\test_zip1\test_zip1 ['1', '2'] ['1.zip', '2.zip']
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1.zip
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\2.zip
D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1 ['3'] ['3.zip', 'QQ\xbd\xd8\xcd\xbc20150208222141.png']
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1\3.zip
D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1\3 ['4'] ['4.zip', 'QQ\xbd\xd8\xcd\xbc20150619073658.png']
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1\3\4.zip
D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1\3\4 [] ['QQ\xbd\xd8\xcd\xbc20150208222155.png', 'QQ\xbd\xd8\xcd\xbc20150619073634.png']
D:\TestSamples\samples\extractfile\test_zip1\test_zip1\2 [] ['5.zip', 'QQ\xbd\xd8\xcd\xbc20150619073658.png']
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\2\5.zip
开始while循环
D:\TestSamples\samples\extractfile\test_zip1 ['test_zip1'] []
D:\TestSamples\samples\extractfile\test_zip1\test_zip1 ['1', '2'] ['1.zip', '2.zip']
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1.zip
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\2.zip
D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1 ['3'] ['3.zip', 'QQ\xbd\xd8\xcd\xbc20150208222141.png']
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1\3.zip
D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1\3 ['4'] ['4.zip', 'QQ\xbd\xd8\xcd\xbc20150619073658.png']
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1\3\4.zip
D:\TestSamples\samples\extractfile\test_zip1\test_zip1\1\3\4 [] ['QQ\xbd\xd8\xcd\xbc20150208222155.png', 'QQ\xbd\xd8\xcd\xbc20150619073634.png']
D:\TestSamples\samples\extractfile\test_zip1\test_zip1\2 ['5'] ['5.zip', 'QQ\xbd\xd8\xcd\xbc20150619073658.png']
开始解压:D:\TestSamples\samples\extractfile\test_zip1\test_zip1\2\5.zip
D:\TestSamples\samples\extractfile\test_zip1\test_zip1\2\5 [] ['QQ\xbd\xd8\xcd\xbc20150208222155.png', 'QQ\xbd\xd8\xcd\xbc20150619073634.png']
这里重点说明下这两行代码的作用:
if len(dirs) == 0 and not isEnd:
break
假如文件结构是文章开头示例的那样,那这两行代码实际上是没有作用的,如果在示例的文件结构上,在4.zip下再加一层压缩包6.zip,没有这两行代码的话,最后一次while循环的结果是这样的:
开始while循环
D:\TestSamples\samples\extractfile\test_zip2 ['test_zip2'] []
D:\TestSamples\samples\extractfile\test_zip2\test_zip2 ['1', '2'] ['1.zip', '2.zip']
开始解压:D:\TestSamples\samples\extractfile\test_zip2\test_zip2\1.zip
开始解压:D:\TestSamples\samples\extractfile\test_zip2\test_zip2\2.zip
D:\TestSamples\samples\extractfile\test_zip2\test_zip2\1 ['3'] ['3.zip', 'QQ\xbd\xd8\xcd\xbc20150208222141.png']
开始解压:D:\TestSamples\samples\extractfile\test_zip2\test_zip2\1\3.zip
D:\TestSamples\samples\extractfile\test_zip2\test_zip2\1\3 [] ['4.zip', 'QQ\xbd\xd8\xcd\xbc20150619073658.png']
开始解压:D:\TestSamples\samples\extractfile\test_zip2\test_zip2\1\3\4.zip
D:\TestSamples\samples\extractfile\test_zip2\test_zip2\2 ['5'] ['5.zip', 'QQ\xbd\xd8\xcd\xbc20150619073658.png']
开始解压:D:\TestSamples\samples\extractfile\test_zip2\test_zip2\2\5.zip
D:\TestSamples\samples\extractfile\test_zip2\test_zip2\2\5 [] ['QQ\xbd\xd8\xcd\xbc20150208222155.png', 'QQ\xbd\xd8\xcd\xbc20150619073634.png']
可以看到在1\3文件夹下存在4.zip文件,但此时1\3文件夹下已经没有目录了,所以os.walk()将终止对该层目录的遍历,虽然此时isEnd被设置成False,但在遍历2.zip解压出来的目录及子目录时,已经没有压缩包了,所以isEnd成了True,while循环结束,6.zip并未被解压。这两行代码的作用实际是在控制目录的遍历深度,也就是某个目录下不存在目录但仍然存在压缩包时,解压该文件后仍然需要继续遍历,直到子目录下没有压缩包,再进行下一个目录的遍历。
优点:可适应任何目录结构的压缩包,一次性解压出所有嵌套的压缩包
缺点:从运行结果就很容易看出,上层的zip每进行一次while循环,就解压一次,效率差