如果你想要将 pyspark 的 DataFrame 转换为 Python 的列表,可以使用
toPandas()
函数将 DataFrame 转换为 Pandas 的 DataFrame 类型,然后使用 Pandas 的
to_dict(orient='records')
函数将其转换为列表:
df = spark.read.csv("path/to/file.csv", header=True)
# Convert the DataFrame to a Pandas DataFrame
pandas_df = df.toPandas()
# Convert the Pandas DataFrame to a list
records = pandas_df.to_dict(orient='records')
当然,如果你只想获取 DataFrame 中的某一列的值,可以使用 select
函数选择列,并使用 collect()
函数获取其中的值:
# Select the "name" column from the DataFrame
names = df.select("name").collect()
# Convert the resulting list of Row objects to a plain list
names = [row.name for row in names]
这样就可以将 pyspark 的 DataFrame 转换为 Python 的列表了。