如何查找Pandas数据框架中的重复行

Pandas的重复行

要在 Pandas DataFrame 中找到 重复的 行，可以使用**pd.df.diplicated()**函数。**Pandas.DataFrame.diplicated()**是一个库函数，可以根据所有或特定的列找到重复的行。 pd.df.diplicated() 函数为每条重复的行返回一个布尔系列，其值为 真 。
pandas.dataframe.diplicated()函数的语法如下。
DataFrame.duplicated(subset=None, keep='first')
subset :
单列或多列标签应被用于重复检查。如果你不提供这些参数，那么所有的列都将被检查以找到重复的行。
keep：
它表示出现的情况，应该被标记为重复的。它的值可以是{"第一个"，"最后一个"，假的}， 默认值是 "第一个"。
第一个。除了第一次出现外，所有重复的行都将被标记为 "真"。
最后一个。除了最后一次出现外，所有重复的行都将被标记为 "真"。
错。所有的重复都将被标记为真。
series = [('Stranger Things', 3, 'Millie'),
          ('Game of Thrones', 8, 'Emilia'), ('La Casa De Papel', 4, 'Sergio'),
          ('Westworld', 3, 'Evan Rachel'), ('Stranger Things', 3, 'Millie'),
         ('La Casa De Papel', 4, 'Sergio')]
# Create a DataFrame object
dfObj = pd.DataFrame(series, columns=['Name', 'Seasons', 'Actor'])
print(dfObj)
 python3 app.py
               Name  Seasons        Actor
0   Stranger Things        3       Millie
1   Game of Thrones        8       Emilia
2  La Casa De Papel        4       Sergio
3         Westworld        3  Evan Rachel
4   Stranger Things        3       Millie
5  La Casa De Papel        4       Sergio
正如你所看到的，上面的数据框架包含重复的行。
基于所有的列来查找重复的行。
如果我们想找到并选择重复的，所有的行都基于所有的列，调用Daraframe.duplicate()，不需要任何子集 参数。它将返回每个重复的行的布尔系列，除了它们的第一次出现外，都是True（keep参数的默认值是 "第一"）。然后将这个布尔系列传递给Dataframe的[]操作符来选择重复的行。
请看下面的代码。
# app.py
import pandas as pd
series = [('Stranger Things', 3, 'Millie'),
          ('Game of Thrones', 8, 'Emilia'), ('La Casa De Papel', 4, 'Sergio'),
          ('Westworld', 3, 'Evan Rachel'), ('Stranger Things', 3, 'Millie'),
         ('La Casa De Papel', 4, 'Sergio')]
# Create a DataFrame object
dfObj = pd.DataFrame(series, columns=['Name', 'Seasons', 'Actor'])
# Find a duplicate rows
duplicateDFRow = dfObj[dfObj.duplicated()]
print(duplicateDFRow)
python3 app.py
               Name  Seasons   Actor
4   Stranger Things        3  Millie
5  La Casa De Papel        4  Sergio
这里所有重复的行都被返回，除了第一次出现的，因为keep参数的默认值是 "第一"。
如果我们想选择所有重复的行，除了最后出现的行，我们必须传递一个keep参数为 "**last"。**请看下面的代码。
# app.py
import pandas as pd
series = [('Stranger Things', 3, 'Millie'),
          ('Game of Thrones', 8, 'Emilia'), ('La Casa De Papel', 4, 'Sergio'),
          ('Westworld', 3, 'Evan Rachel'), ('Stranger Things', 3, 'Millie'),
         ('La Casa De Papel', 4, 'Sergio')]
# Create a DataFrame object
dfObj = pd.DataFrame(series, columns=['Name', 'Seasons', 'Actor'])
# Find a duplicate rows
duplicateDFRow = dfObj[dfObj.duplicated(keep='last')]
print(duplicateDFRow)
pyt python3 app.py
               Name  Seasons   Actor
0   Stranger Things        3  Millie
2  La Casa De Papel        4  Sergio
根据选定的列查找重复的行。
如果我们想比较行并根据选定的列找到重复的行，我们应该在**Dataframe.duplicate()**函数的subset参数中传递列名列表。然后，它将只根据这些传递的列选择并返回重复的行。
例如，让我们根据一个单列来查找和选择行。
# app.py
import pandas as pd
series = [('Stranger Things', 3, 'Millie'),
          ('Game of Thrones', 8, 'Emilia'), ('La Casa De Papel', 4, 'Sergio'),
          ('Westworld', 3, 'Evan Rachel'), ('Stranger Things', 3, 'Millie'),
         ('La Casa De Papel', 4, 'Sergio')]
# Create a DataFrame object
dfObj = pd.DataFrame(series, columns=['Name', 'Seasons', 'Actor'])
# Find a duplicate rows
duplicateDFRow = dfObj[dfObj.duplicated(['Name'])]
print(duplicateDFRow)
 pyt python3 app.py
               Name  Seasons   Actor
4   Stranger Things        3  Millie
5  La Casa De Papel        4  Sergio
在这里，在 "**姓名 "**列中有相同值的行被标记为重复的行并返回。
让我们看看另一个例子。
基于两列名称查找并选择行。
# app.py
import pandas as pd
series = [('Stranger Things', 3, 'Millie'),
          ('Game of Thrones', 8, 'Emilia'), ('La Casa De Papel', 4, 'Sergio'),
          ('Westworld', 3, 'Evan Rachel'), ('Stranger Things', 3, 'Millie'),
         ('La Casa De Papel', 4, 'Sergio')]
# Create a DataFrame object
dfObj = pd.DataFrame(series, columns=['Name', 'Seasons', 'Actor'])
# Find a duplicate rows
duplicateDFRow = dfObj[dfObj.duplicated(['Name', 'Seasons'])]
print(duplicateDFRow)
pyt python3 app.py
               Name  Seasons   Actor
4   Stranger Things        3  Millie
5  La Casa De Papel        4  Sergio
如果你想在Pandas DataFrame中找到重复的行，你可以使用pandas.dataframe.diplicated()函数。
本教程到此结束。
  




    
 
   相关推荐
   
        Dream丶Killer
      
    pandas处理重复值
 小知识，大挑战！本文正在参与「程序员必备小知识」创作活动 示例数据： 仅判断单列是否有重复值 使用values_counts()对列中值出现次数进行统计。结果默认按照降序进行排列，只需要判断第一行值的
  1503
 
 
        JavaScript
      
    前端常用插件、工具类库汇总，不要重复造轮子啦！！！
 在开发中，我们经常会将一些常用的代码块、功能块进行封装，为的是更好的复用。那么，被抽离出来独立完成功能，通过API或配置项和其他部分交互，便形成了插件。 下面这些是我在工作中积累的一些常用的前端开源插件，这里只是罗列出来，详细的用法各个插件官网或者Gayhub都有介绍。注意：往…
  22.2w
 




    
 
        Vue.js
      
    vue阻止重复请求
 项目当中前端代码会遇到同一个请求向服务器发了多次的情况,我们要避免服务器资源浪费,同一个请求一定时间只允许发一次请求,如果业务简单可以用定时器做防抖,如果业务复杂我要通过ajax库统一取消ajax请求
  5.7w
 
 
        不思量自难忘
        Python
      
    pandas系列之横向拼接(四)重复列名的处理
 这是pandas系列第三十八篇，主要讲述合并过程中重复列名的处理。主要包括默认情形下的处理方式和自定义情形下的处理方式
  6740
 
 
        不思量自难忘
        Python
      
    pandas系列之重复值的处理
 这是pandas系列第八篇，主要介绍了针对数据中重复值的相关处理，包括重复值的删除以及自定义行为等内容。
  869
 
 
        非优秀程序员
        JavaScript
      
    如何用 CSS 中写出超级美丽的阴影效果
 「这是我参与11月更文挑战的第7天，活动详情查看：2021最后一次更文挑战」。 在我看来，最好的网站和Web应用程序对它们具有切实的"真实"质量。实现这种质量涉及很多因素，但阴影是一个关键因素。 然而
  116.0w
 
 
        JavaScript
      
    Axios 如何取消重复请求？
 在 Web 项目开发过程中，我们经常会遇到重复请求的场景，如果系统不对重复的请求进行处理，则可能会导致系统出现各种问题。
  3.4w
 




    
 
      
    如何防止订单重复支付？
 大家好，我是老三，想必大家对在线支付都不陌生，今天和大家聊聊如何防止订单重复支付，业务+技术，看看都有什么要注意的。
  3.4w
 
 
        pandas
      
    图解Pandas重复值处理
 12_图解Pandas重复值处理 pandas中处理重复值使用的是两个函数： duplicated()：判断是否有重复值 drop_duplicates() ：删除重复值 Pandas连载文章
  446
 
 
      
    中高级前端大厂面试秘籍，为你保驾护航金三银四，直通大厂(上)
 当下，正面临着近几年来的最严重的互联网寒冬，听得最多的一句话便是：相见于江湖~🤣。缩减HC、裁员不绝于耳，大家都是人心惶惶，年前如此，年后想必肯定又是一场更为惨烈的江湖厮杀。但博主始终相信，寒冬之中，人才更是尤为珍贵。只要有过硬的操作和装备，在逆风局下，同样也能来一波收割翻盘…
  66.8w
 
 
        XboxYan
        掘金·金石计划
      
    还在用 JS 做节流吗？CSS 也可以防止按钮重复点击
 本文正在参加「金石计划 . 瓜分6万现金大奖」。 众所周知，函数节流（throttle）是 JS 中一个非常常见的优化手段，可以有效的避免函数过于频繁的执行。 举个例子：一个保存按钮，为了避免重复提交
  7.3w
 
 
        程序员依扬
      
    【1 月最新】前端 100 问：能搞懂 80% 的请把简历给我
 半年时间，几千人参与，精选大厂前端面试高频 100 题，这就是「壹题」。 在 2019 年 1 月 21 日这天，「壹题」项目正式开始，在这之后每个工作日都会出一道高频面试题，主要涵盖阿里、腾讯、头条、百度、网易等大公司和常见题型。得益于大家热情参与，现在每道题都有很多答案，提…
  65.3w
 
 
            11158
        王伟同学44009
        Python
        NumPy
      
    Pandas数据结构详解 | 轻松玩转Pandas（1）
 Pandas 有很多高级的功能，但是想要掌握高级功能前，需要先掌握它的基础知识，Pandas 中的数据结构算是非常基础的知识之一了。 Pandas 常用的数据结构有两种：Series 和 DataFrame。这些数据结构构建在 Numpy 数组之上，这意味着它们效率很高。我们来…
  4683
 
 
        braveMan
        JavaScript
      
    JavaScript 必须学会的11 个工具方法(避免重复造轮子)
 我正在参加「掘金·启航计划」 前俩天也是更新了俩篇 JavaScript 的文章，当时由于时间问题，所以就是想到哪里写到哪里，这次趁着周六日好好整理了一下，内有详细注释，快来看吧~
  5.8w
 
 
      
    如何防止重复下单
 大家好，我是老三，上一篇我们聊了 如何防止订单重复支付 这篇和大家聊聊如何防止重复下单，文章很短，大概只需要几分钟阅读。 用户下单流程 我们从用户浏览商品开始，看看用户下单的简要过程： 浏览商品：用户
  1.6w
 
 
          
 
 
 
 
  
 友情链接：
 
        离谱！我家孽徒不可能这么可爱！
        快穿：宿主她被反派强撩了
        无限被诅咒天赋，且强行给予敌人
        angularjs moment.js
        typescript数组删除指定
        sql2008 大小写
        我在主神空间无限模拟
        我在乡村养媳妇全文阅读
        用vue实现登陆页面
        FE @ MT
      
   私信
   
         21,702