相关文章推荐
发财的太阳  ·  【C# ...·  2 周前    · 
宽容的小虾米  ·  JAVA异常 ...·  8 月前    · 
逃跑的键盘  ·  Spring Cloud Config ...·  1 年前    · 
Python处理JSON数据,建议收藏!

Python处理JSON数据,建议收藏!

以下文章来源于Python编程时光,作者Peter

来源: Python处理JSON数据,建议收藏!


在实际工作中,尤其是web数据的传输,我们经常会遇到json数据。它不像常见的文本数据、数值数据那样友好,而且它和Python中的字典类型数据又很相像,给很多人造成了困扰。

本文结合具体案例详细介绍了如何利用Python和pandas(Python的第三方库)来处理json数据,主要内容包含:

  • json数据简介
  • 常用json数据转化网站
  • json数据和Python数据的转化
  • pandas处理json数据


1. JSON 简单介绍

1.1 什么是json数据

首先,我们看一段来自维基百科对json的解释:

JSON J ava S cript O bject N otation,JavaScript对象表示法)是一种由道格拉斯·克罗克福特构想和设计、轻量级的资料交换语言,该语言以易于让人阅读的文字为基础,用来传输由属性值或者序列性的值组成的数据对象。
JSON 数据格式与语言无关。即便它源自JavaScript,但目前很多编程语言都支持 JSON 格式数据的生成和解析。文件扩展名是 .json

通过上面的官方介绍,我们总结3点:

  • JSON是一种文本(资料)语言,超轻量级的数据交换格式
  • JSON数据容易阅读,易读性强
  • 源自JavaScript,其他语言可解析JSON数据

1.2 json数据类型

JSON实际上是JavaScript的一个子集,JSON语言中仅有的6种数据类型或者它们之间的任意组合:

  • number:和JavaScript中的number一致
  • boolean:JavaScript中的true或者false
  • string:JavaScript中的string
  • null:JavaScript中的null
  • array:JavaScript的表示方式:[]
  • object:JavaScript的 {…} 表示方式

1.3 两点规定

1、JSON语言中规定了字符集必须是 UTF-8

2、为了统一解析,JSON的 字符串 规定必须是双引号 ""

2. 常用json数据转化网站

1、 json.cn json.cn/

2、json菜鸟工具: c.runoob.com/front-end/

3、sojson: sojson.com/ ,非常全的json处理网站

4、kjson: kjson.com/

5、编程狮-json检验工具: w3cschool.cn/tools/inde

6、JSONViewer: jsonviewer.stack.hu/ ,用于检测Json格式是否正确的一个在线应用工具

3. JSON 和 Dict 类型转化

本小节主要讲解的json类型数据和Python类型的转化。

json 对象和 Python 字典的转化主要使用的是内置 json 包,下面详细介绍该包的使用。详细的学习资料见官网: docs.python.org/3/libra

首先使用的时候直接导入该包:

import json

json 包中存在4中方法用来进行和Python内置数据类型的转化:

笔记:两个和load相关的方法只是多了一步和文件相关的操作。

json.dumps

和dump相关的两个函数是将Python数据类型转成json类型,转化对照表如下:

json.dumps 方法的作用是将Python字典类型的数据转成json格式的数据,具体的参数如下:

json.dumps(obj,   # 待转化的对象
           skipkeys=False,  # 默认值是False,若dict的keys内的数据不是python的基本类型(str,unicode,int,long,float,bool,None),设置为False时,就会报TypeError的错误。此时设置成True,则会跳过这类key 
           ensure_ascii=True,  # 默认是ASCII码,若设置成False,则可以输出中文
           check_circular=True,  # 若为False,跳过对容器类型的循环引用检查
           allow_nan=True,  # 若allow_nan为假,则ValueError将序列化超出范围的浮点值(nan、inf、-inf),严格遵守JSON规范,而不是使用JavaScript等价值(nan、Infinity、-Infinity)
           cls=None, 
           indent=None, # 参数根据格式缩进显示,表示缩进几个空格
           separators=None,   # 指定分隔符;包含不同dict项之间的分隔符和key与value之间的分隔符;同时去掉`: `
           encoding="utf-8",  # 编码
           default=None, # 默认是一个函数,应该返回可序列化的obj版本或者引发类型错误;默认值是只引发类型错误
           sort_keys=False,  # 若为False,则字典的键不排序;设置成True,按照字典排序(a到z) 
           **kw)

通过例子来解释上面几个常见参数的作用

1、当我们的Python类型数据中 存在中文

information1 = {
     name :  小明 ,
     age : 18,
     address :  shenzhen 
# 字典转成json数据
information2 = json.dumps(information1)
print(type(information1))
print(type(information2))
print(information2)


加上 ensure_ascii=False 参数即可显示中文:

# 字典转成json数据
information3 = json.dumps(information1,ensure_ascii=False)


⚠️通过结果我们发现: json数据中全部变成了双引号,原来的字典类型数据中使用的是单引号 ,再看一个关于引号变化的例子:

>>> import json
>>> print(json.dumps({ 4 : 5,  6 : 7}, sort_keys=True, indent=4))  # python中的键是字符串,用单引号
# 结果显示
    "4": 5,  # 变成双引号
    "6": 7

2、对json数据通过缩进符美观输出,使用indent参数

information4 = {
     name :  小明 ,
     age : 18,
     skills :  python ,
     english :  CET6 ,
     major :  会计 ,
     address :  深圳 
information5 = json.dumps(information4, ensure_ascii=False)   # 不缩进
information6 = json.dumps(information4, ensure_ascii=False, indent=2)  # 缩进2个空格  
information7 = json.dumps(information4, ensure_ascii=False, indent=5)  # 缩进5个空格
print(information5)
print(information6)
print(information7)


3、对Python数据类型中键进行排序输出

information4 = {
     name :  小明 ,
     age : 18,
     skills :  python ,
     english :  CET6 ,
     major :  会计 ,
     address :  深圳 
information8 = json.dumps(information4, ensure_ascii=False, indent=2)  # 
information9 = json.dumps(information4, ensure_ascii=False, indent=2,sort_keys=True)  #  键的排序设置成True 
print(information8)
print(information9)


通过 sort_keys=True 的设置,可以观察到输出的结果进行了首写字母的排序;当首写字母相同,按照第二个字母再进行排序。

4、输出分隔符的控制

使用 separators 参数来设置不同的输出分隔符;不同的dic元素之间默认是 ,键值对之间默认是 :

information1 = {
     name :  小明 ,
     age : 18,
     address :  shenzhen 
information2 = json.dumps(information1,ensure_ascii=False)
information10 = json.dumps(information1,ensure_ascii=False,separators=( + , @ ))  # 改变分隔符
print(information2)  # 默认连接符
print(information10)  


json.dump

json.dump 功能和 json.dumps 类似,只是需要将数据存入到文件中,二者参数相同

我们尝试将下面的个人信息写入到文件中

information = {
     name :  小明 ,
     age : 18,
     skills :  python ,
     english :  CET6 ,
     major :  会计 ,
     address :  深圳 

1、如果不使用 indent 参数,全部信息显示为一行

# 使用json.dump;json数据一定是双引号
with open("information_1_to_json.json", "w", encoding= utf-8 ) as f:
    # json.dump(dic_, f) # 全部写入一行数据,不换行
    json.dump(information,   # 待写入数据
              f, # File对象
              sort_keys=True,  # 键的排序
              ensure_ascii=False)  # 显示中文

看看实际的保存效果:

加入 indent 参数,会显示成多行数据:

with open("information_2_to_json.json", "w", encoding= utf-8 ) as f:
    json.dump(information, 
              indent=2,  # 空格缩进符,写入多行
              sort_keys=True, 
              ensure_ascii=False) 

json.loads

load 相关的两个函数是将json转成Python数据类型,转化对照表如下:

json.loads 的作用是将json格式的数据转成Python字典类型的数据。

information1 = {
     name :  小明 ,
     age : 18,
     address :  shenzhen 
# 字典转成json数据
information3 = json.dumps(information1,ensure_ascii=False)
information11 = json.loads(information3)  # json转成字典数据
print(information11)


json.load

打开json文件再转成字典形式的数据

# 使用json.load
with open("information_to_json.json",encoding="utf-8") as f:
    json_to_dict = json.load(f)  # json转成字典
print(json_to_dict)


4. JSON 和 非 Dict 类型的转化

上面介绍的主要是json格式数据和Python字典之间的转化,下面讲解了Python其他数据类型通过 json.dumps 方法转成json个数据:

1、元组转化

2、列表转化

3、布尔值转化

4、数值型数据转化

5. 利用 Demjson 来解析

Demjson Python 的第三方库,能够用于编码和解码 json 数据:

  • encode:将 Python 对象编码成 JSON 字符串
  • decode:将已编码的 JSON 字符串解码为 Python 对象

安装demjson

直接使用 pip install demjson 安装,kan dao看到如下界面表示安装成功。

使用demjson

使用之前先进行导入:

import demjson   # 导入包

1、编码功能

2、解码功能

demjson 包一个明显的缺点就是不能直接解析中文数据:

如果我们想看到中文数据,可以使用eval函数:

6. Pandas处理 json

下面介绍pandas库对json数据的处理:

  • read_json:从json文件中读取数据
  • to_json:将pandas中的数据写入到json文件中
  • json_normalize:对json数据进行规范化处理

geek-docs.com/pandas/pa

6.1 read_json

首先看看官网中 read_json 的参数:

pandas.read_json(
  path_or_buf=None,  # json文件路径
  orient=None,  # 重点参数,取值为:"split"、"records"、"index"、"columns"、"values"
  typ= frame ,   # 要恢复的对象类型(系列或框架),默认’框架’.
  dtype=None, # boolean或dict,默认为True
  convert_axes=None, 
  convert_dates=True, 
  keep_default_dates=True, 
  numpy=False, 
  precise_float=False, 
  date_unit=None, 
  encoding=None, 
  lines=False,  # 布尔值,默认为False,每行读取该文件作为json对象
  chunksize=None,
  compression= infer , 
  nrows=None, 
  storage_options=None)

详细的参数解析可以参考文章: blog.csdn.net/qq_415623

假设我们现在有一份json数据,如下图所示:

我们将上面的数据读取进来,由于数据是比较规范的,所以直接填写文件路径即可读取:

重点讲解下参数 orient

1、oriden= split

split’ : dict like {index -> [index], columns -> [columns], data -> [values]}

json文件的key的名字只能为 index,cloumns,data 这三个,另外多一个key都不行,少一个也不行。举例说明:

2、orient= records

‘records’ : list like [{column -> value}, … , {column -> value}]


3、orient= index

dict like {index -> {column -> value}}