在 Pandas 中,可以使用
drop_duplicates
方法删除 DataFrame 中的重复行。
该方法默认会将 DataFrame 中所有列的值都相同的行视为重复行,并仅保留其中的一行。但是,您可以通过指定参数来自定义此方法的行为,例如只基于特定列删除重复行。
下面是一个例子,展示如何使用
drop_duplicates
方法删除 DataFrame 中的重复行:
import pandas as pd
# 创建一个包含重复行的 DataFrame
df = pd.DataFrame({
'name': ['John', 'Alice', 'Bob', 'Alice'],
'age': [25, 30, 35, 30],
'city': ['New York', 'Los Angeles', 'Chicago', 'Los Angeles']
# 删除重复行
df = df.drop_duplicates()
# 打印删除重复行后的 DataFrame
print(df)
在上面的示例中,我们首先创建了一个包含重复行的 DataFrame,并将其赋给变量 df
。然后,我们使用 drop_duplicates
方法删除重复行,并将删除重复行后的 DataFrame 重新赋给变量 df
。最后,我们打印出删除重复行后的 DataFrame。
执行上面的代码会输出以下结果:
name age city
0 John 25 New York
1 Alice 30 Los Angeles
2 Bob 35 Chicago
可以看到,重复的行已经被成功删除了,只保留了唯一的一行。