pyspark dataframe转list

如果你想要将 pyspark 的 DataFrame 转换为 Python 的列表,可以使用 toPandas() 函数将 DataFrame 转换为 Pandas 的 DataFrame 类型,然后使用 Pandas 的 to_dict(orient='records') 函数将其转换为列表:

df = spark.read.csv("path/to/file.csv", header=True)
# Convert the DataFrame to a Pandas DataFrame
pandas_df = df.toPandas()
# Convert the Pandas DataFrame to a list
records = pandas_df.to_dict(orient='records')

当然,如果你只想获取 DataFrame 中的某一列的值,可以使用 select 函数选择列,并使用 collect() 函数获取其中的值:

# Select the "name" column from the DataFrame
names = df.select("name").collect()
# Convert the resulting list of Row objects to a plain list
names = [row.name for row in names]

这样就可以将 pyspark 的 DataFrame 转换为 Python 的列表了。

  •