Spark scala使用na.replace替换DataFrame中的字符串

相关文章推荐

飘逸的饭卡 · dataframe split ...· 3 月前 ·

想出国的拐杖 · python dataframe ...· 3 月前 ·

健壮的皮带 · python DataFrame循环读取 ...· 3 月前 ·

唠叨的豆芽 · Pandas中multiindex转换成列_ ...· 2 月前 ·

爱吹牛的瀑布 · PySpark 读写 JSON 文件到 ...· 2 月前 ·

幸福的领结 · 2024年成都石室中学（成都四中）引进竞赛教练公告· 8 月前 ·

慷慨的高山 · 研发生产终端设备，华为团泊洼7号地块工业项目 ...· 8 月前 ·

爱健身的电脑桌 · 内存泄露排查之线程泄露 - mrguozp ...· 1 年前 ·

温暖的凉茶 · 国金证券投资银行部执行总经理田新国确认出席N ...· 1 年前 ·

含蓄的枇杷 · 类似对象'DF__Assets_Ba__Cr ...· 1 年前 ·

val df = sc.parallelize(Seq(
     |   (0,"cat26","cat26"),
     |   (1,"cat67","cat26"),
     |   (2,"cat56","cat26"),
     |   (3,"cat8","cat26"))).toDF("Hour", "Category", "Value")

scala> df.na.replace("*", Map[Any, Any](
     |      "cat26" -> "cat23"
     |    )).show()
+----+--------+-----+
|Hour|Category|Value|
+----+--------+-----+
|   0|   cat23|cat23|
|   1|   cat67|cat23|
|   2|   cat56|cat23|
|   3|    cat8|cat23|
+----+--------+-----+

spark官方源码示例:org/apache/spark/sql/DataFrameNaFunctionsSuite.scala
name是列名

df.na.replace("name", Map(
        "Bob" -> "Bravo",
        "Alice" -> null
df.na.replace("*", Map[Any, Any](
     false -> null
替换hour列中的0为9
import com.google.common.collect.ImmutableMap;
scala> df.na.replace("hour", ImmutableMap.of(0, 9)).show()
+----+--------+-----+
|Hour|Category|Value|
+----+--------+-----+
|   9|   cat26|cat26|
|   1|   cat67|cat26|
|   2|   cat56|cat26|
|   3|    cat8|cat26|
+----+--------+-----+
替换所有列中"cat26"为"cat222"
scala> df.na.replace("*", ImmutableMap.of("cat26", "cat222")).show()
+----+--------+------+
|Hour|Category| Value|
+----+--------+------+
|   0|  cat222|cat222|
|   1|   cat67|cat222|
|   2|   cat56|cat222|
|   3|    cat8|cat222|
+----+--------+------+
spark官方源码示例:
org/apache/spark/sql/DataFrameNaFunctions.scala
* {{{
*   import com.google.common.collect.ImmutableMap;
*   // Replaces all occurrences of 1.0 with 2.0 in column "height".
*   df.na.replace("height", ImmutableMap.of(1.0, 2.0));
*   // Replaces all occurrences of "UNKNOWN" with "unnamed" in column "name".
*   df.na.replace("name", ImmutableMap.of("UNKNOWN", "unnamed"));
*   // Replaces all occurrences of "UNKNOWN" with "unnamed" in all string columns.
*   df.na.replace("*", ImmutableMap.of("UNKNOWN", "unnamed"));
* }}}

推荐文章

飘逸的饭卡 · dataframe split 截取字符串后取指定列的值_对dataframe中某一列的值做split提取

3 月前

想出国的拐杖 · python dataframe 某一列int 转string_mob64ca12ef5efc的技术博客_

3 月前

健壮的皮带 · python DataFrame循环读取获取某行某列的值_mob649e816138f5的技术博客_

3 月前

唠叨的豆芽 · Pandas中multiindex转换成列_multiindex转为列

2 月前

爱吹牛的瀑布 · PySpark 读写 JSON 文件到 DataFrame开发者社区

2 月前

幸福的领结 · 2024年成都石室中学（成都四中）引进竞赛教练公告

8 月前

慷慨的高山 · 研发生产终端设备，华为团泊洼7号地块工业项目入选2020年东莞市重大预备项目_建设

8 月前

爱健身的电脑桌 · 内存泄露排查之线程泄露 - mrguozp - 博客园

1 年前

温暖的凉茶 · 国金证券投资银行部执行总经理田新国确认出席NFS2020年度CEO峰会暨猎云网创投颁奖盛典！_发展

1 年前

含蓄的枇杷 · 类似对象'DF__Assets_Ba__Creat__3CB118CA' 依赖于列'Creator'错误的解决方法

1 年前