dataframe删除重复的行

在 Pandas 中,可以使用 drop_duplicates 方法删除 DataFrame 中的重复行。

该方法默认会将 DataFrame 中所有列的值都相同的行视为重复行,并仅保留其中的一行。但是,您可以通过指定参数来自定义此方法的行为,例如只基于特定列删除重复行。

下面是一个例子,展示如何使用 drop_duplicates 方法删除 DataFrame 中的重复行:

import pandas as pd
# 创建一个包含重复行的 DataFrame
df = pd.DataFrame({
    'name': ['John', 'Alice', 'Bob', 'Alice'],
    'age': [25, 30, 35, 30],
    'city': ['New York', 'Los Angeles', 'Chicago', 'Los Angeles']
# 删除重复行
df = df.drop_duplicates()
# 打印删除重复行后的 DataFrame
print(df)

在上面的示例中,我们首先创建了一个包含重复行的 DataFrame,并将其赋给变量 df。然后,我们使用 drop_duplicates 方法删除重复行,并将删除重复行后的 DataFrame 重新赋给变量 df。最后,我们打印出删除重复行后的 DataFrame。

执行上面的代码会输出以下结果:

    name  age         city
0   John   25     New York
1  Alice   30  Los Angeles
2    Bob   35      Chicago

可以看到,重复的行已经被成功删除了,只保留了唯一的一行。

  •