相关文章推荐
稳重的打火机  ·  c - Linux Kernel ...·  1 年前    · 
豁达的斑马  ·  jQuery Mobile入门 - ...·  1 年前    · 

pyspark withcolumn lambda

PySpark中的withColumn函数可以用来在DataFrame中添加或更新一列,并在这一列中使用函数对每一行进行操作。其中,可以使用lambda函数作为参数来对DataFrame中的每一行进行操作。

举个例子,假设有一个DataFrame "df",含有一列"age",现在要在该DataFrame中添加一列"age_plus_one",并将该列中的每个元素加1.可以使用下面的代码实现:

from pyspark.sql.functions import col
df = df.withColumn("age_plus_one", col("age") + 1)

如果要使用lambda函数进行操作,可以这样做

df = df.withColumn("age_plus_one", lambda x : x + 1)

这样添加的新列"age_plus_one"就是对原来的age列加1的结果.

  •