用Python将嵌套的JSON转换为CSV文件

9 人关注

我知道这个问题已经被问过很多次了。我尝试了几种解决方案,但我无法解决我的问题。

我有一个大的嵌套JSON文件(1.4GB),我想把它变成平面的,然后转换为CSV文件。

The JSON structure is like this:

"company_number": "12345678", "data": { "address": { "address_line_1": "Address 1", "locality": "Henley-On-Thames", "postal_code": "RG9 1DP", "premises": "161", "region": "Oxfordshire" "country_of_residence": "England", "date_of_birth": { "month": 2, "year": 1977 "etag": "26281dhge33b22df2359sd6afsff2cb8cf62bb4a7f00", "kind": "individual-person-with-significant-control", "links": { "self": "/company/12345678/persons-with-significant-control/individual/bIhuKnFctSnjrDjUG8n3NgOrl" "name": "John M Smith", "name_elements": { "forename": "John", "middle_name": "M", "surname": "Smith", "title": "Mrs" "nationality": "Vietnamese", "natures_of_control": [ "ownership-of-shares-50-to-75-percent" "notified_on": "2016-04-06"

我知道这很容易用 pandas 模块完成,但我对它不熟悉。

EDITED

The desired output should be something like this:

company_number, address_line_1, locality, country_of_residence, kind,
12345678, Address 1, Henley-On-Thamed, England, individual-person-with-significant-control

请注意,这只是一个简短的版本。输出应该有所有的字段。

5 个评论
zipa
你能显示期望的输出吗?
我已经编辑了我的帖子
首先你必须自己解决这个错误......但我没有得到这个错误,而且json加载得很好。
python
json
csv
data-conversion
Porjaz
Porjaz
发布于 2016-12-16
4 个回答
Bogdan Mircea
Bogdan Mircea
发布于 2021-03-23
已采纳
0 人赞同

请向下滚动查看更新、更快的解决方案

这是一个较早的问题,但我整晚都在为类似的情况挣扎,希望得到一个满意的结果,我想到了这个。

import json
import pandas
def cross_join(left, right):
    return left.assign(key=1).merge(right.assign(key=1), on='key', how='outer').drop('key', 1)
def json_to_dataframe(data_in):
    def to_frame(data, prev_key=None):
        if isinstance(data, dict):
            df = pandas.DataFrame()
            for key in data:
                df = cross_join(df, to_frame(data[key], prev_key + '.' + key))
        elif isinstance(data, list):
            df = pandas.DataFrame()
            for i in range(len(data)):
                df = pandas.concat([df, to_frame(data[i], prev_key)])
        else:
            df = pandas.DataFrame({prev_key[1:]: [data]})
        return df
    return to_frame(data_in)
if __name__ == '__main__':
    with open('somefile') as json_file:
        json_data = json.load(json_file)
    df = json_to_dataframe(json_data)
    df.to_csv('data.csv', mode='w')

解释一下。

The cross_join这个函数是我发现的一个做笛卡尔乘积的巧妙方法。(credit:here)

The json_to_dataframe函数做逻辑,使用pandas数据帧。在我的例子中,json是深度嵌套的,我想分割字典键:值对成列, but the 我想转化为一个列的行的列表--因此要进行连接 -- 然后我将其与上层交叉连接,从而使记录数成倍增加,使列表中的每个值都有自己的行,而前面的列是相同的。

递归性创建的堆栈与下面的堆栈交叉连接,直到最后一个堆栈被返回。

然后,在数据框架为表格格式的情况下,可以很容易地将其转换为CSV格式的"df.to_csv()"dataframe对象的方法。

这应该适用于深度嵌套的JSON,能够通过上述逻辑将其全部规范化为行。

我希望这能帮助某人,总有一天。我只是想回馈这个了不起的社区。

---------------------------------------------------------------------------------------------

稍后编辑:新的解决方案

我又回到了这个问题上,因为虽然数据框架选项有点作用,但应用要花几分钟来解析不是很大的JSON数据。因此,我想做数据框架所做的事,但要靠自己。

from copy import deepcopy
import pandas
def cross_join(left, right):
    new_rows = [] if right else left
    for left_row in left:
        for right_row in right:
            temp_row = deepcopy(left_row)
            for key, value in right_row.items():
                temp_row[key] = value
            new_rows.append(deepcopy(temp_row))
    return new_rows
def flatten_list(data):
    for elem in data:
        if isinstance(elem, list):
            yield from flatten_list(elem)
        else:
            yield elem
def json_to_dataframe(data_in):
    def flatten_json(data, prev_heading=''):
        if isinstance(data, dict):
            rows = [{}]
            for key, value in data.items():
                rows = cross_join(rows, flatten_json(value, prev_heading + '.' + key))
        elif isinstance(data, list):
            rows = []
            for item in data:
                [rows.append(elem) for elem in flatten_list(flatten_json(item, prev_heading))]
        else:
            rows = [{prev_heading[1:]: data}]
        return rows
    return pandas.DataFrame(flatten_json(data_in))
if __name__ == '__main__':
    json_data = {
        "id": "0001",
        "type": "donut",
        "name": "Cake",
        "ppu": 0.55,
        "batters":
                "batter":
                        {"id": "1001", "type": "Regular"},
                        {"id": "1002", "type": "Chocolate"},
                        {"id": "1003", "type": "Blueberry"},
                        {"id": "1004", "type": "Devil's Food"}
        "topping":
                {"id": "5001", "type": "None"},
                {"id": "5002", "type": "Glazed"},
                {"id": "5005", "type": "Sugar"},
                {"id": "5007", "type": "Powdered Sugar"},
                {"id": "5006", "type": "Chocolate with Sprinkles"},
                {"id": "5003", "type": "Chocolate"},
                {"id": "5004", "type": "Maple"}
        "something": []
    df = json_to_dataframe(json_data)
    print(df)

OUTPUT:

      id   type  name   ppu batters.batter.id batters.batter.type topping.id              topping.type
0   0001  donut  Cake  0.55              1001             Regular       5001                      None
1   0001  donut  Cake  0.55              1001             Regular       5002                    Glazed
2   0001  donut  Cake  0.55              1001             Regular       5005                     Sugar
3   0001  donut  Cake  0.55              1001             Regular       5007            Powdered Sugar
4   0001  donut  Cake  0.55              1001             Regular       5006  Chocolate with Sprinkles
5   0001  donut  Cake  0.55              1001             Regular       5003                 Chocolate
6   0001  donut  Cake  0.55              1001             Regular       5004                     Maple
7   0001  donut  Cake  0.55              1002           Chocolate       5001                      None
8   0001  donut  Cake  0.55              1002           Chocolate       5002                    Glazed
9   0001  donut  Cake  0.55              1002           Chocolate       5005                     Sugar
10  0001  donut  Cake  0.55              1002           Chocolate       5007            Powdered Sugar
11  0001  donut  Cake  0.55              1002           Chocolate       5006  Chocolate with Sprinkles
12  0001  donut  Cake  0.55              1002           Chocolate       5003                 Chocolate
13  0001  donut  Cake  0.55              1002           Chocolate       5004                     Maple
14  0001  donut  Cake  0.55              1003           Blueberry       5001                      None
15  0001  donut  Cake  0.55              1003           Blueberry       5002                    Glazed
16  0001  donut  Cake  0.55              1003           Blueberry       5005                     Sugar
17  0001  donut  Cake  0.55              1003           Blueberry       5007            Powdered Sugar
18  0001  donut  Cake  0.55              1003           Blueberry       5006  Chocolate with Sprinkles
19  0001  donut  Cake  0.55              1003           Blueberry       5003                 Chocolate
20  0001  donut  Cake  0.55              1003           Blueberry       5004                     Maple
21  0001  donut  Cake  0.55              1004        Devil's Food       5001                      None
22  0001  donut  Cake  0.55              1004        Devil's Food       5002                    Glazed
23  0001  donut  Cake  0.55              1004        Devil's Food       5005                     Sugar
24  0001  donut  Cake  0.55              1004        Devil's Food       5007            Powdered Sugar
25  0001  donut  Cake  0.55              1004        Devil's Food       5006  Chocolate with Sprinkles
26  0001  donut  Cake  0.55              1004        Devil's Food       5003                 Chocolate
27  0001  donut  Cake  0.55              1004        Devil's Food       5004                     Maple

按照上面的做法,嗯,就是cross_join函数所做的事情与数据框架解决方案中的几乎一样,但没有数据框架,因此速度更快。

我添加了扁平化_列表生成器,因为我想确保JSON数组都是漂亮的、扁平的,然后作为一个单一的字典列表提供,包括一个迭代的前一个键,然后再分配给列表中的每个值。这几乎是模仿了pandas.concat在这种情况下的行为。

主函数中的逻辑。json_to_dataframe那么就和以前一样了。所有需要改变的是让数据帧执行的操作成为编码函数。

另外,在数据框架的解决方案中,我没有将前面的标题追加到嵌套对象中,但除非你100%确定你没有列名冲突,否则这几乎是强制性的。

I hope this helps :).

EDIT: Modified the cross_join函数来处理嵌套列表为空的情况,基本上保持之前的结果集不被修改。即使在示例的JSON数据中加入了空的JSON列表,输出结果也没有变化。谢谢你,@Nazmus Sakib for pointing it out.

你的代码在我看来有点笨拙。我对python不是很熟悉,但我很确定你的缩进是不正确的。能否请你审查一下?
@Qw3ry 是的,你是对的。谢谢你提到它。现在应该没事了。
这个新的解决方案完美地工作,将复杂的json转换为数据框架。然后我可以很容易地将其转换为CSV。谢谢你!
这个解决方案需要更多的赞赏!!。对我来说,效果非常好。
@Kumar 我们也许可以永远这样下去,所以我建议你问一个新的问题,如果你需要帮助,为你的用例大量定制这个。当然,这是在你想出的解决方案不满意的情况下。
Martin Evans
Martin Evans
发布于 2021-03-23
0 人赞同

对于你给出的JSON数据,你可以通过解析JSON结构来实现,只需返回所有叶子节点的列表。

这假定你的结构在整个过程中是一致的,如果每个条目可以有不同的字段,见第二种方法。

import json
import csv
def get_leaves(item, key=None):
    if isinstance(item, dict):
        leaves = []
        for i in item.keys():
            leaves.extend(get_leaves(item[i], i))
        return leaves
    elif isinstance(item, list):
        leaves = []
        for i in item:
            leaves.extend(get_leaves(i, key))
        return leaves
    else:
        return [(key, item)]
with open('json.txt') as f_input, open('output.csv', 'w', newline='') as f_output:
    csv_output = csv.writer(f_output)
    write_header = True
    for entry in json.load(f_input):
        leaf_entries = sorted(get_leaves(entry))
        if write_header:
            csv_output.writerow([k for k, v in leaf_entries])
            write_header = False
        csv_output.writerow([v for k, v in leaf_entries])

如果你的JSON数据是你所给的格式的条目列表,那么你应该得到如下的输出。

address_line_1,company_number,country_of_residence,etag,forename,kind,locality,middle_name,month,name,nationality,natures_of_control,notified_on,postal_code,premises,region,self,surname,title,year
Address 1,12345678,England,26281dhge33b22df2359sd6afsff2cb8cf62bb4a7f00,John,individual-person-with-significant-control,Henley-On-Thames,M,2,John M Smith,Vietnamese,ownership-of-shares-50-to-75-percent,2016-04-06,RG9 1DP,161,Oxfordshire,/company/12345678/persons-with-significant-control/individual/bIhuKnFctSnjrDjUG8n3NgOrl,Smith,Mrs,1977
Address 1,12345679,England,26281dhge33b22df2359sd6afsff2cb8cf62bb4a7f00,John,individual-person-with-significant-control,Henley-On-Thames,M,2,John M Smith,Vietnamese,ownership-of-shares-50-to-75-percent,2016-04-06,RG9 1DP,161,Oxfordshire,/company/12345678/persons-with-significant-control/individual/bIhuKnFctSnjrDjUG8n3NgOrl,Smith,Mrs,1977

如果每个条目可能包含不同的(或可能缺失的)字段,那么一个更好的方法是使用DictWriter。在这种情况下,需要对所有的条目进行处理,以确定可能的fieldnames的完整列表,从而可以写出正确的标题。

import json
import csv
def get_leaves(item, key=None):
    if isinstance(item, dict):
        leaves = {}
        for i in item.keys():
            leaves.update(get_leaves(item[i], i))
        return leaves
    elif isinstance(item, list):
        leaves = {}
        for i in item:
            leaves.update(get_leaves(i, key))
        return leaves
    else:
        return {key : item}
with open('json.txt') as f_input:
    json_data = json.load(f_input)
# First parse all entries to get the complete fieldname list
fieldnames = set()
for entry in json_data:
    fieldnames.update(get_leaves(entry).keys())
with open('output.csv', 'w', newline='') as f_output:
    csv_output = csv.DictWriter(f_output, fieldnames=sorted(fieldnames))
    csv_output.writeheader()
    csv_output.writerows(get_leaves(entry) for entry in json_data)
    
我认为,如果嵌套的键值在整个json文件中不一致,这可能会引起问题。 如果其中一个结构缺少一个字段,该行的数据将被偏移。
这段代码对我的json数据不起作用。我只能解析出这个键。"K6v8Ht6nXCjaO_ApNGr" 你能帮助我吗?请帮助我。我的python版本是3.6.4
@tpbafk,对于Python 3.x,你需要对 open() 命令做一个小改动(我已经更新了脚本),但是如果没有看到你的JSON,我就无法告诉你它没有解析所有内容的原因。也许你应该开始一个新的问题?
同意@the_cat_lady的观点,如果字段缺失,代码将无法工作。
@SriniSydney 如果你的条目包含不同的字段,那么一个更好的方法是使用 DictWriter 。首先需要对数据进行解析以获得完整的 fieldname 列表。我已经更新了答案,以帮助你了解如何做到这一点。
saward
saward
发布于 2021-03-23
0 人赞同

你可以使用pandas库中的json_normalize函数来扁平化结构,然后随心所欲地处理它。 比如说。

import pandas as pd
import json
raw = """[{
  "company_number": "12345678",
  "data": {
    "address": {
      "address_line_1": "Address 1",
      "locality": "Henley-On-Thames",
      "postal_code": "RG9 1DP",
      "premises": "161",
      "region": "Oxfordshire"
    "country_of_residence": "England",
    "date_of_birth": {
      "month": 2,
      "year": 1977
    "etag": "26281dhge33b22df2359sd6afsff2cb8cf62bb4a7f00",
    "kind": "individual-person-with-significant-control",
    "links": {
      "self": "/company/12345678/persons-with-significant-control/individual/bIhuKnFctSnjrDjUG8n3NgOrl"
    "name": "John M Smith",
    "name_elements": {
      "forename": "John",
      "middle_name": "M",
      "surname": "Smith",
      "title": "Mrs"
    "nationality": "Vietnamese",
    "natures_of_control": [
      "ownership-of-shares-50-to-75-percent"
    "notified_on": "2016-04-06"
}]"""
data = json.loads(raw)
data = pd.json_normalize(data)
print(data.to_csv())

Which gives you:

,company_number,data.address.address_line_1,data.address.locality,data.address.postal_code,data.address.premises,data.address.region,data.country_of_residence,data.date_of_birth.month,data.date_of_birth.year,data.etag,data.kind,data.links.self,data.name,data.name_elements.forename,data.name_elements.middle_name,data.name_elements.surname,data.name_elements.title,data.nationality,data.natures_of_control,data.notified_on
0,12345678,Address 1,Henley-On-Thames,RG9 1DP,161,Oxfordshire,England,2,1977,26281dhge33b22df2359sd6afsff2cb8cf62bb4a7f00,individual-person-with-significant-control,/company/12345678/persons-with-significant-control/individual/bIhuKnFctSnjrDjUG8n3NgOrl,John M Smith,John,M,Smith,Mrs,Vietnamese,['ownership-of-shares-50-to-75-percent'],2016-04-06
    
Nazmus Sakib
Nazmus Sakib
发布于 2021-03-23
0 人赞同

参照波格丹-米尔恰的回答。

The code 几乎 达到了我的目的! 但是,每当它遇到嵌套json中的空列表时,就会返回一个空数据帧。

你可以通过在代码中加入以下内容来轻松克服这个问题

elif isinstance(data, list):
        rows = []
        if(len(data) != 0):
            for i in range(len(data)):