JSON是当下常用的数据交换格式,今天在这里向大家介绍下如何用Python解析JSON数据。

【1-JSON简介】

JSON是一种 轻量级的 数据交换格式, 全称Java Object Notation ,它起初来源于Java这门语言, 但因其采用完全独立于语言的文本格式 ,所以在使用时与开发语言无关 ,几乎每门开发语言都有处理JSON的方法。

JSON的数据结构有两种

1. 键值对的无序集合——对象(object),形如:

{'key1': 'value1', 'key2': 'value2'}

2. 值的有序列表——数组(array),形如:

['value1', 'value2']

其中value的类型可以为:string、number、object、array、true、false、null,但是key的类型只能为string。

【2-Python解析JSON的方法】

在Python中,我们可以通过json库中的loads函数来实现json的解析,其使用案例如下:

# 导入json库

import json

# 定义一个json字符串

json_str = '[{"a":1,"b":2}, {"c":3,"d":4,"e":5}]'

# 用loads方法读取json字符串,并解析成Python数据结构

json_data = json.loads(json_str)

json_data

# 输出结果

[{ 'a' : 1 , 'b' : 2 }, { 'c' : 3 , 'd' : 4 , 'e' : 5 }]

json格式的数据在解析到Python中数据结构也会发生相应的变化,解析前后json与Python数据结构的对应关系如下,其中py2和py3也会有一些差别。

Python解析JSON时数据结构的转换

JSON中数据结构

Python2中数据结构

Python3中数据结构

object

array

string

unicode

number (int)

int, long

number (real)

float

float

FALSE

FALSE

FALSE

从上表可以看出,json中的object和array会被转化成dict(字典)和list(列表),之后的数据提取就是对字典和列表的操作了。

# 遍历在之前例子中解析后的json,查看其内容

for i in range(len(json_data)):

sub = json_data[i]

for j in sub.keys:

value = sub[j]

print(value)

# 结果如下

另外,再向大家推荐一个“神器”,通过pandas.io.json模块中的json_normalize函数,可以直接将已经解析成dict或list的json转化成dataframe,省去了循环提取的操作,方便好用。

# 使用json_normalize函数将解析后的json转化为dataframe

from pandas.io.json import json_normalize

json_normalize(json_data)

# 输出结果

a b c d e

0 1.0 2.0 NaN NaN NaN

1 NaN NaN 3.0 4.0 5.0

【3-实战练习】

下面我们用疫情数据来实战练习下对JSON数据的解析:

首先运行下面的代码来获取疫情信息的json数据,并解析为Python的数据结构,其中数据接口的调取方法会在后续的文章中详细讲解。

# 引入相关库

import json

import requests

from pandas.io.json import json_normalize

# 获取疫情数据

url = "https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5"

headers = { 'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36' }

ret = requests.get(url, headers=headers)

text = ret.text

# 将json字符串解析为Python的数据结构

result = json.loads(text)

在Spyder中查看解析后的结果,可以看到result变量是一个有长度为2的字典,实际的数据都在‘data’这个key对应的值里面,以字符串的形式存储。

因此 我们需要再次使用 loads 函数将 这个 json的字符串进行解析,将其 转化为Python的数据结构。

# 将‘data’所对应的值解析为Python的数据结构

data=json.loads(result[ 'data' ])

# 像之前查看result变量一样查看data变量,可以看到疫情数据存在‘areaTree’所对应的值中

world=data[ 'areaTree' ]

# 使用json_normalize函数一步将数据转化成dataframe

world_df=json_normalize(world)

查看world_df变量,可以看到全球的疫情数据已经被处理成规整的dataframe格式了。

从上表可以看出,数据源对于中国的数据又做了更详细的划分,我们可以进一步获得全国各省的数据。

# 提取中国各省的疫情数据

china=world_df.loc[world_df.name== '中国' , 'children' ].values[ 0 ]

# 将各省的疫情数据转化成dataframe

china_df=json_normalize(china)

查看china_df变量,可以看到全国的疫情数据也已经被处理成规整的dataframe格式了。

最后,我们用提取全国各省疫情数据的方法,对每个省内各地市的疫情数据进行提取,最终合并成一个包含了全国数据的dataframe。

# 提取各地市的数据,并合并成一个dataframe

china_city= None # 初始化一个变量

for province in china_df.name: # 按照每个省来循环

city=china_df.loc[china_df.name==province, 'children' ].values[ 0 ] # 提取省内各地市的疫情数据

city_df=json_normalize(city) # 将数据转化成dataframe格式

city_df[ 'province' ]=province # 增加一列作为省名

china_city=city_df.append(china_city) # 将数据添加到全国的汇总数据中

# 选取关注的列并重新设置index

china_city=china_city[[

'province' , 'name' ,

'today.confirm' , 'total.confirm' , 'total.suspect' ,

'total.dead' , 'total.deadRate' , 'total.healRate'

]].reset_index(drop= True )

查看china_city变量,可以看到非结构化的json数据已经被转换成了结构化的表格数据,这为我们后续的数据分析以及数据可视化奠定了良好的数据基础。

【4-总结】

1. JSON用于数据交换,是文本格式,有object和array两种数据机构。

2. Python解析JSON的思路是先用json库中的loads函数将文本型的JSON转化成Python的数据结构(dict或list),再对里面的信息进行提取。

3. 提取信息时可以用循环遍历的方式,也可 以用json_normali ze函数快速实现。

2020年在线开工开课季大促活动(买课送书)已开始,想学数据分析的朋友直接 点击文末的“ 阅读原文 ”进入活动页面选课即可! 详情也可点击 想学数据分析的看过来

可选赠书 返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。