在使用
pandas处理数据时,会遇到这样
一个问题:打开文档查看某些列明显有很多是空的,但是在
python里用
dataframe.info统计出来并不是空的,这是因为excel表里这些数据看起来是空的值,但其实是
一个空格,但是用isnull判断是为False的。
解决方案:
对整张表
dataframe替换空格为np.nan,可以使用replace方法通过正则匹配空格,然后替换:
pandas介绍
Pandas 的数据结构:Pandas 主要有 Series(一维数组),DataFrame(二维数组),Panel(三维数组),Panel4D(四维数组),PanelND(更多维数组)等数据结构。其中 Series 和 DataFrame 应用的最为广泛。
Pandas 常用的数据结构有两种:Series 和 DataFrame。这些数据结构构建在 Numpy 数组之上,这意味着它们效率很高。
python版本:3.5>=python
导入相关库
import numpy
numpy已经可以帮助我们进行数据的处理了,那么学习
pandas的目的是什么呢?
- numpy能够帮助我们处理的是数值型的数 据,当然在数据分析中除了数值型的数据还有好多其他类型的数据(字符串,时间序列),那么
pandas就可以帮我们很好的处理除了数值型的其他数据!
pandas常用的两个类
Series
DataFrame
Series
Series是一种类似与一维数组的对象,由下面两个部分组成:
values:一组数据(ndarray类型)
index: