SparkSession读取json格式数据和去除null和空字符串问题

相关文章推荐

重情义的皮带 · 能给我几个C++学习论坛么 - CSDN文库· 5 月前 ·

憨厚的硬盘 · Vue2.0+组件库总结 - 如是说 - 博客园· 11 月前 ·

悲伤的山羊 · Python爬虫学习： ...· 1 年前 ·

长情的紫菜汤 · mysql - Can't find ...· 1 年前 ·

大鼻子的山羊 · HPP文件还是CPP文件_51CTO博客_c ...· 1 年前 ·


   columnNameOfCorruptRecord

（默认值是spark.sql.columnNameOfCorruptRecord中指定的值）：允许重命名由


   PERMISSIVE

模式创建的新字段（存储格式错误的字符串）。这会覆盖


   spark.sql.columnNameOfCorruptRecord

。


   dateFormat


   dateFormat

（默认yyyy-MM-dd）：设置表示日期格式的字符串。自定义日期格式遵循


   java.text.SimpleDateFormat

中的格式。


   timestampFormat


   timestampFormat

（默认yyyy-MM-dd'T'HH：mm：ss.SSSXXX）：设置表示时间戳格式的字符串。自定义日期格式遵循


   java.text.SimpleDateFormat

中的格式。


   multiLine

false 解析可能跨越多行的一条记录

数据源格式：data.json:

"a":"字符串1", "b":2, "c":"", "d":null

结果显示结果却都在一列中，这并不是我要的结果：

val spark = SparkSession
      .builder()
      .config("spark.sql.warehouse.dir","file:///")
      .master("local")
      .getOrCreate()
val ds = spark.read.format("json")
       //将读取的数据全部转换成string数据类型
      .option("primitivesAsString","true")
      .load("./data.json")
ds.show()
ds.printSchema()
后来网上百度了许多，说的是spark 读取json格式是支持半结构化的数据。

后来我在网上找了个工具https://www.sojson.com/在线json格式转换

将数据压缩成单行模式

再跑一下程序
[{"a":"字符串1","b":2,"c":"","d":null}]

推荐文章

重情义的皮带 · 能给我几个C++学习论坛么 - CSDN文库

5 月前

憨厚的硬盘 · Vue2.0+组件库总结 - 如是说 - 博客园

11 月前

悲伤的山羊 · Python爬虫学习：案例-BBS网站介绍（1）_黑马论坛爬虫抓取_南淮北安的博客-CSDN博客

1 年前

长情的紫菜汤 · mysql - Can't find solution for rust error " Error("EOF while parsing an object", line: 1, column: 1)" - Stack Overflow

1 年前

大鼻子的山羊 · HPP文件还是CPP文件_51CTO博客_cpp文件

1 年前