关于python处理大型json文件的方法

作者:人生天天快乐

这篇文章主要介绍了python处理大型json文件的方法,本文通过示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

如图所示,要处理的数据是一个json数组,而且非常大

下图为电脑配置,使用 json.load() 方法加载上述json文件电脑直接卡死

解决思路:

先用python进行预处理,即一整个json数据加载慢,那就分开加载,每次加载一个json对象,然后使用 json.dumps()方法 存储到txt中,方便读取。当然也可以存储到内存中,根据情况而定。

算法思想:因为 json 是一种结构化的数据,所以 {} 是成对存在的。因为使用逐行读取的方法读入json文件,所以根据 {} 的数量来判断是否读取了一个完整的json对象,如果是完整的,则使用 json.dumps()方法 存储到txt中。

getUsefullData(temp + line,id)这个方法是提取自己需要的数据

def jsonProcess(fileName,round):
    id = 1
    with open(fileName, 'r', encoding='utf-8') as f,open('../tempData/tempFile'+str(round)+'.txt','w') as tempFile:
        line = f.readline()
        line = f.readline()
        temp = ''
        khNum = 0
        id = 1
        while line:
            # print(line)
            if line.find('{') != -1:
                khNum += 1
            if line.find('}') != -1:
                khNum -= 1
            if khNum == 0:
                line = line.replace(',','')
                data = getUsefullData(temp + line,id)
                id += 1
                if len(data) > 1:
                    # print(data)
                        tempFile.write(json.dumps(data)+'\n')
                    except 'json.decoder.JSONDecodeError':
                        break
                temp = ''
                line = f.readline()
                continue
            temp += line
            line = f.readline()

读取方法:

with open('../tempData/tempFile'+str(round)+'.txt') as f:
        dataList = f.readlines()
        # 解析保存好的list
        for data in dataList:
            data = json.loads(data)

到此这篇关于python处理大型json文件的方法的文章就介绍到这了,更多相关python处理大型json文件内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:
  • Python中的Numpy 面向数组编程常见操作
    Python中的Numpy 面向数组编程常见操作
    2022-07-07
  • Python标准库datetime date模块的详细介绍
    Python标准库datetime date模块的详细介绍
    2022-07-07
  • python使用百度或高德地图获取地理位置并转换
    python使用百度或高德地图获取地理位置并转换
    2022-07-07
  • python四则运算表达式求值示例详解
    python四则运算表达式求值示例详解
    2022-07-07
  • python处理json文件的四个常用函数
    python处理json文件的四个常用函数
    2022-07-07
  • Python标准库os库的常用功能解析
    Python标准库os库的常用功能解析
    2022-07-07
  • Python numpy和matlab的几点差异介绍
    Python numpy和matlab的几点差异介绍
    2022-07-07
  • Python可视化Tkinter进阶grid布局详情
    Python可视化Tkinter进阶grid布局详情
    2022-07-07
  • 美国设下计谋,用娘炮文化重塑日本,已影响至中国
    美国设下计谋,用娘炮文化重塑日本,已影响至中国
    2021-11-19
  • 时空伴随者是什么意思?时空伴随者介绍
    时空伴随者是什么意思?时空伴随者介绍
    2021-11-09
  • 工信部称网盘企业免费用户最低速率应满足基本下载需求,天翼云盘回应:坚决支持,始终
    工信部称网盘企业免费用户最低速率应满足基本下载需求,天翼云盘回应:坚决支持,始终
    2021-11-05
  • 2022年放假安排出炉:五一连休5天 2022年所有节日一览表
    2022年放假安排出炉:五一连休5天 2022年所有节日一览表
    2021-10-26
  • 电脑版 - 返回首页

    2006-2023 脚本之家 JB51.Net , All Rights Reserved.
    苏ICP备14036222号