1.磁盘占用率高
本人处理数据集标签文件的时候,经常会遇到格式转换的问题比如coco转voc,xml转voc等等。每个文件都不是很大,可能只有1-2k,但是架不住多啊。一多就要疯狂io,磁盘占用率就很高。刚开始发现这个问题就使用了数据结构,真的是学了这么多年数据结构,第一次感觉到了他有多牛逼。set、dict都比list 快超级多,在处理大文件之类的情况现象超级明显。
2.内存占用率高
将提取的内容都放在内存里了,确实节约了不少时间,但是,到最后还是会变慢。what`s happened?
内存占用率有点高啊。
基础的-打开文件用with open(file)as xxx
还可以看一下文件读取的read,readline,readlines,这里
有一个
3.啥都不高,就是运行速度慢
跑了一天没有结束的数据处理程序,我扔到服务器上跑,5分钟结束,你说气不气吧。
1.磁盘占用率高本人处理数据集标签文件的时候,经常会遇到格式转换的问题比如coco转voc,xml转voc等等。每个文件都不是很大,可能只有1-2k,但是架不住多啊。一多就要疯狂io,磁盘占用率就很高。刚开始发现这个问题就使用了数据结构,真的是学了这么多年数据结构,第一次感觉到了他有多牛逼。set、dict都比list 快超级多,在处理大文件之类的情况现象超级明显。2.内存占用率高将提取的内容都放在内存里了,确实节约了不少时间,但是,到最后还是会变慢。what`shappened?内存占用.
今天同事写代码,用
python
读
取一个四五百兆的
文件
,然后做一串逻辑上很直观的处理。结果处理了一天还没有出来结果。问题出在哪里呢?
1. 同事打印了在不同时间点的时间,在需要的地方插入如下代码:
print time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))
发现一个规律,执行速度到后面时间
越来越
长,也就是处理速度
越来越
慢
。
2. 为什么会
越来越
慢
呢?
1)可能原因1,GC 的问题,有篇文章里面写,
python
list append 的时候会
越来越
慢
,解决方案是禁止GC:
使用 gc.disabl
1. 同事打印了在不同时间点的时间,在需要的地方插入如下代码:
print time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))
发现一个规律,执行速度到...