在 PySpark 中,可以使用 DataFrame 的
dropDuplicates()
方法来去除 DataFrame 中的重复行。
例如,假设你有一个名为
df
的 DataFrame,你可以这样做来去除它的重复行:
df = df.dropDuplicates()
这将删除 df
中所有完全相同的行。
你也可以使用 dropDuplicates()
方法的参数来指定特定的列或列组合用于查找重复行。例如,假设你想按照列 A
和 B
的值来去重,你可以这样做:
df = df.dropDuplicates(subset=['A', 'B'])
这将删除 df
中所有 A
列和 B
列的值完全相同的行。
希望这对你有帮助。