spark sql save dataframe to csv

在 Spark SQL 中,我们可以使用 DataFrame API 将 DataFrame 保存为 CSV 文件。下面是一些示例代码来演示如何使用 Scala 和 Python 将 DataFrame 保存为 CSV。

使用 Scala 保存 DataFrame 到 CSV

val df = spark.read.format("csv").option("header", "true").load("path/to/input.csv")
df.write.format("csv").option("header", "true").save("path/to/output.csv")

在上面的示例中,我们首先使用 spark.read 方法读取 CSV 文件并将其作为 DataFrame 加载到 Spark 中。然后,我们使用 df.write 方法将 DataFrame 写入 CSV 文件。

在保存 DataFrame 时,我们需要使用 format 方法指定要使用的格式,这里我们使用了 CSV 格式。我们还可以使用 option 方法指定其他选项,例如 header 选项用于指定是否包含列名。在上面的示例中,我们设置 header 选项为 true,以便在输出文件中包含列名。

使用 Python 保存 DataFrame 到 CSV

df = spark.read.format("csv").option("header", "true").load("path/to/input.csv")
df.write.format("csv").option("header", "true").save("path/to/output.csv")

在上面的示例中,我们使用 Python 代码来执行相同的任务。注意,代码非常相似,只有语法略有不同。

在 Python 中,我们需要使用 spark.read 方法读取 CSV 文件并将其加载到 DataFrame 中。然后,我们使用 df.write 方法将 DataFrame 写入 CSV 文件。在这个示例中,我们同样使用了 format 方法和 option 方法指定 CSV 文件的格式和选项。

以上就是将 Spark SQL 中的 DataFrame 保存为 CSV 的方法。如果您还有其他问题,请随时提出。

  •