spark按某几列删除dataframe重复行

相关文章推荐

谦虚好学的火柴 · Spark ...· 1 月前 ·

近视的橙子 · python ...· 1 月前 ·

博学的香菜 · python将dataframe指定列更新至 ...· 1 月前 ·

谦和的弓箭 · dataframe在Mysql中批量修改—— ...· 1 月前 ·

飘逸的饭卡 · dataframe split ...· 4 周前 ·

爱听歌的手术刀 · python每日一错——ImportErro ...· 9 月前 ·

从容的大脸猫 · Celery在Django下使用的内存泄漏问 ...· 1 年前 ·

慷慨的橙子 · input ...· 1 年前 ·

安静的羽毛球 · Updated to VS 17.3.4 ...· 1 年前 ·

英勇无比的金鱼 · python读取csv跳过第一行 ...· 1 年前 ·

新建一个 dataframe ：

val conf = new SparkConf().setAppName("TTyb").setMaster("local")
val sc = new SparkContext(conf)
val spark = new SQLContext(sc)
val dataFrame = spark.createDataFrame(Seq(
  (1, 1, "2", "5"),
  (2, 2, "3", "6"),
  (2, 2, "35", "68"),
  (2, 2, "34", "67"),
  (2, 2, "38", "68"),
  (3, 2, "36", "69"),
  (1, 3, "4", null)
)).toDF("id", "label", "col1", "col2")
想根据 id 和 lable 来删除重复行，即删掉 id=2 且 lable=2 的重复行。利用 distinct 无法删除
dataframe.distinct().show()
+---+-----+----+----+
| id|label|col1|col2|
+---+-----+----+----+
|  1|    1|   2|   5|
|  2|    2|   3|   6|
|  2|    2|  35|  68|
|  2|    2|  34|  67|
|  2|    2|  38|  68|
|  3|    2|  36|  69|
|  1|    3|   4|null|
+---+-----+----+----+
利用 dropDuplicates 可以根据 ID 来删除：
dataFrame.dropDuplicates("id","label").show()
+---+-----+----+----+
| id|label|col1|col2|
+---+-----+----+----+
|  2|    2|   3|   6|
|  1|    1|   2|   5|
|  1|    3|   4|null|
|  3|    2|  36|  69|
+---+-----+----+----+

推荐文章

谦虚好学的火柴 · Spark 创建RDD、DataFrame各种情况的默认分区数 - guoyu1

1 月前

近视的橙子 · python 把列表变量保存到txt_mob649e8167c4a3的技术博客_

1 月前

博学的香菜 · python将dataframe指定列更新至Mysql_dataframe 按照主键更新mysql指定列

1 月前

谦和的弓箭 · dataframe在Mysql中批量修改——pymysql、pandas_dataframe 按照主键更新mysql指定列

1 月前

飘逸的饭卡 · dataframe split 截取字符串后取指定列的值_对dataframe中某一列的值做split提取

4 周前

爱听歌的手术刀 · python每日一错——ImportError: No module named 'yaml'_importerror: no module named yaml-CSDN博客

9 月前

从容的大脸猫 · Celery在Django下使用的内存泄漏问题_celery django 占用了-CSDN博客

1 年前

慷慨的橙子 · input checkbox选中和取消选中事件_input checkbox 事件-CSDN博客

1 年前

安静的羽毛球 · Updated to VS 17.3.4 and now our project has typescript intelliSense errors - Microsoft Q&A

1 年前

英勇无比的金鱼 · python读取csv跳过第一行 python中csv读取第一行_mob64ca1414098d的技术博客_51CTO博客

1 年前