PySpark中的withColumn函数可以用来在DataFrame中添加或更新一列,并在这一列中使用函数对每一行进行操作。其中,可以使用lambda函数作为参数来对DataFrame中的每一行进行操作。
举个例子,假设有一个DataFrame "df",含有一列"age",现在要在该DataFrame中添加一列"age_plus_one",并将该列中的每个元素加1.可以使用下面的代码实现:
from pyspark.sql.functions import col
df = df.withColumn("age_plus_one", col("age") + 1)
如果要使用lambda函数进行操作,可以这样做
df = df.withColumn("age_plus_one", lambda x : x + 1)
这样添加的新列"age_plus_one"就是对原来的age列加1的结果.