我有10K个文件夹,每个文件夹有200个JSON格式文件的200条记录。 试图将所有的记录编入一个数据框架,然后最后编入CSV(欢迎其他格式的建议)。
这是我的工作方案,仅建立数据框架的过程就花了大约8.3小时。(未转换为CSV)
%%time
finalDf = pd.DataFrame()
rootdir ='/path/foldername'
all_files = Path(rootdir).rglob('*.json')
for filename in all_files:
with open(filename, 'r+') as f:
data = json.load(f)
df = pd.json_normalize(data).drop(columns=[A]).rename(columns={'B': 'Date'})
finalDf = finalDf.append(df, ignore_index=True)
有什么建议可以优化这一点,使时间减少。