相关文章推荐

彷徨的豌豆 · 各种数据分析工具所能处理的数据量大概是多少？ ...· 1 周前 ·

愤怒的豆芽 · Apache Kyuubi 在 T3 ...· 4 天前 ·

小眼睛的椅子 · 科幻题材网络文学与新的中国故事· 2 月前 ·

温文尔雅的杨桃 · 王府井大街“萌龍”吸睛年味漸濃_資訊提示_首 ...· 3 月前 ·

打酱油的帽子 · 《黑帮大佬和我的365日》百度云网盘下载.阿 ...· 2 年前 ·

霸气的麦片 · 钱学森图书馆· 2 年前 ·

温柔的槟榔 · 见证神龙汽车成立三十周年，东风富康ES600 ...· 2 年前 ·

避免在Spark中解析json子字段

0 人关注

我有一个带有复杂模式的json文件（见下文），我正在用Spark读取。我发现有些字段在源数据中是重复的，因此Spark在读取过程中抛出了一个错误（如预期）。重复的名字是在 storageidlist 字段下。我想做的是将 storageidlist 字段作为一个未解析的字符串加载到一个字符串类型的列中，之后再手动解析。这在Spark中可能吗？

|-- errorcode: string (nullable = true ) |-- errormessage: string (nullable = true ) |-- ip: string (nullable = true ) |-- label: string (nullable = true ) |-- status: string (nullable = true ) |-- storageidlist: array (nullable = true ) | |-- element: struct (containsNull = true ) | | |-- errorcode: string (nullable = true ) | | |-- errormessage: string (nullable = true ) | | |-- fedirectorList: array (nullable = true ) | | | |-- element: struct (containsNull = true ) | | | | |-- directorId: string (nullable = true ) | | | | |-- errorcode: string (nullable = true ) | | | | |-- errordesc: string (nullable = true ) | | | | |-- metrics: string (nullable = true ) | | | | |-- portMetricDataList: array (nullable = true ) | | | | | |-- element: array (containsNull = true ) | | | | | | |-- element: struct (containsNull = true ) | | | | | | | |-- data: array (nullable = true ) | | | | | | | | |-- element: struct (containsNull = true ) | | | | | | | | | |-- ts: string (nullable = true ) | | | | | | | | | |-- value: string (nullable = true ) | | | | | | | |-- errorcode: string (nullable = true ) | | | | | | | |-- errordesc: string (nullable = true ) | | | | | | | |-- metricid: string (nullable = true ) | | | | | | | |-- portid: string (nullable = true ) | | | | | | | |-- status: string (nullable = true ) | | | | |-- status: string (nullable = true ) | | |-- metrics: string (nullable = true ) | | |-- status: string (nullable = true ) | | |-- storageGroupList: string (nullable = true ) | | |-- storageid: string (nullable = true ) |-- sublabel: string (nullable = true ) |-- ts: string (nullable = true )

json

apache-spark

schema

tothsa

发布于 2021-11-17

1 个回答

Neethu Lalitha

发布于 2021-11-17

0 人赞同

其中一个选择是为这个JSON对象创建一个Java类。这样，你就可以读取输入的JSON，而Spark不会在读取过程中抛出一个错误。只要你定义的模式与输入模式相匹配，就允许重复。

    spark.read()
            .schema(Encoders.bean(YourPOJO.class).schema())
            .option("encoding", "UTF-8")
            .option("mode", "FAILFAST")

推荐文章

彷徨的豌豆 · 各种数据分析工具所能处理的数据量大概是多少？ - PurStar

1 周前

愤怒的豆芽 · Apache Kyuubi 在 T3 出行的深度实践 - 网易数帆

4 天前

小眼睛的椅子 · 科幻题材网络文学与新的中国故事

2 月前

温文尔雅的杨桃 · 王府井大街“萌龍”吸睛年味漸濃_資訊提示_首都之窗_北京市人民政府門戶網站

3 月前

打酱油的帽子 · 《黑帮大佬和我的365日》百度云网盘下载.阿里云盘.英语中字.(2020)_人人电影网,百度云盘,阿里网盘下载

2 年前

霸气的麦片 · 钱学森图书馆

2 年前

温柔的槟榔 · 见证神龙汽车成立三十周年，东风富康ES600首批新车交付火热进行_腾讯新闻

2 年前

今天看啥 · Py中国 · codingpro · 小百科 · link之家 · 卧龙AI搜索

删除内容请联系邮箱 2879853325@qq.com

Code - 代码工具平台

© 2024 ~ 沪ICP备11025650号