更多包含丰富源数据源代码的 Pandas 高阶操作,数据可视化,以及商业数据分析实战案例,尽在公众号 “
数据分析与商业实践
”
前言
数据清洗很重要,本文演示如何使用 Python Pandas 来查找和丢弃 DataFrame 中列值唯一的列,简言之,就是某列的数值除空值外,全都是一样的,比如:全0,全1,或者全部都是一样的字符串如:已支付,已支付,已支付…
这些列大多形同虚设,所以当数据集列很多而导致人眼难以查找时,这个方法尤为好用。
代码实现
上代码前先上个坑吧,数据列中的空值 NaN 也会被 Pandas 认为是一种 “ 值 ”,如下图:
所以只要把列的缺失值先丢弃,再统计该列的唯一值的个数就行啦,具体代码步骤如下图,如有疑问可以直接评论或者私信,俺每天固定时间都会查看
检测列值唯一的所有列
最后总结一下,Pandas 在数据清洗方面有非常多实用的操作,很多时候我们想不到只是因为没有接触过类似的案例或者不知道怎么转换语言描述,比如
“ 列值唯一 ” --> “ 除了空值以外的唯一值的个数 ”
,许多坑博主都已经踩过了,欢迎查看我的其余文章,提建议,共同进步。
更多包含丰富源数据源代码的 Pandas 高阶操作,数据可视化,以及商业数据分析实战案例,尽在公众号 “
数据分析与商业实践
”
-
-
原理+代码|深入浅出Python随机森林预测实战
-
原理 + 代码|Python实现 Apriori 智能推荐算法
-
原理+代码|手把手教你 Python 基于数据不平衡的反欺诈模型实战
-
以后会陆续更新下列案例
python计算数独 编程实现数独
1、对项目的分析与初步计划:起初拿到这个项目是非常懵逼的,因为涉及到很多个人的知识盲区,诸如:C语言文件的操作、命令行参数、Code Quality Analysis工具、性能分析工具Studio Profiling Tools、GitHub……。可以说在这之前根本就没有接触过这些东西。虽然什么都不会,但不能什么都不做,于是我制定了以下计划:
什么都不管,先写好代码再说。翻开《C 程序设计