为了便于描述,定义本文示例数据为如下结构:

df = pd.DataFrame([[1, np.nan], [np.nan, 4], [5,6],[np.nan,7]],columns=["A","B"])
df  #定义示例数据df

判断数据中是否有空值

pandas isnull()函数

df.isnull()    #返回df中各元素是否为空的同df大小的数据框
df["A"].isnull()  #判断A列中空值情况
df[["A","B"]].isnull()  # 指定多列进行空值判断,对于本文实例,下述代码效果同df.isnull() 

pandas notnull()函数

df.notnull()    #判断df中各元素是否 不是 空值
df["A"].isnull()  #判断A列中非空值情况
df[["A","B"]].isnull()  # 指定多列进行非空值判断,对于本文实例,下述代码效果同df.notnull() 

numpy np.isnan() 函数

np.isnan(df)   # 等同于df.isnull()
np.isnan(df["A"])   # 等同于 df["A"].isnull()
np.isnan(df[["A","B"]])  # 等同于 df[["A","B"]].isnull()

统计空值/非空值数量

df.isnull().sum()  # 统计每列的空值数量
df.notnull().sum()  # 统计每列的非空值数量
df["A"].count()     # A列 非空数量
df.count()         # 统计所有列的非空值数量
df.count(axis=1)   # 每行非空值数量,axis=1
df["A"].sum()      # A列 元素数值之和

根据空值筛选数据

# 筛选出A列为空的所有行
df[df.A.isnull()]    
df[df["A"].isnull()]
# 筛选出A列非空的所有行
df[df.A.notnull()]   
df[df["A"].notnull()]        
# 筛选出df中存在空值的行
df[df.isnull().values==True] 

查找空值索引

np.where(np.isnan(df))   # df中空值所在的行索引及列索引
np.where(np.isnan(df.A))    # df中A列空值所在的行索引

删除空值 dropna()函数

df.dropna() # 删除存在空值的行,默认axis=0按行,how=any每行存在一个空值就执行删除行操作 df.dropna(axis=1) # 删除存在空值的列 df.dropna(how="all") # 删除所有列都为空值的特定行 df.dropna(how = "any") # 删除存在空值的行 # 对特定列空值进行删除 df.dropna(how="any",subset=["A"]) # 删除A列中存在空值的行 df.dropna(how="any",subset=["A","B"]) # 删除A,B列中只要有一列存在空值的行 #将删除操作作用于原数据,修改替换原数据 df.dropna(how="all",subset=["A","B"],inplace=True) # 删除A,B列都为空值的行,并替换原数据

填充空值fillna()函数

# 用指定的数字来填充
df.fillna(0)   # 用0来填充df中的空值
# 用指定的函数统计值来填充
df.fillna(df.mean())  # 用df中数据的平均值来填充空值
df.fillna(df.mean()["A"])   #指定用A列数据均值来填充df中空值
df.fillna(df.sum())   # 用df中数据的和来填充空值
# 不同的填充方式{‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}
# 每列的空值,用其列下方非空数值填充
df.fillna(method="backfill")  
df.fillna(method="bfill")   # 同backfill
# 每列的空值,用其所在列上方非空数值填充,若上方没有元素,保持空值
df.fillna(method="ffill")  
df.fillna(method="pad")     # 同 ffill
#limit参数设置填充空值的最大个数
df.fillna(0,limit=1)  # 每列最多填充1个空值,超过范围的空值依然为空
#inplace参数空值是否修改原数据df
df.fillna(0,inplace=True)  # inplace为true,将修改作用于原数据
                    本文整理了数据中空值的处理操作,主要内容如下:判断数据中是否有空值统计空值/非空值数量根据空值筛选数据查找空值索引删除空值 dropna()函数填充空值fillna()函数为了便于描述,定义本文示例数据为如下结构:df = pd.DataFrame([[1, np.nan], [np.nan, 4], [5,6],[np.nan,7]],columns=["A",...
2. 直接删除法
当缺失值的个数只占整体很小一部分的时候,可直接删除缺失值(行)。但是如果缺失值占比比较大,这种直接删除缺失值的处理方法就会丢失重要信息。
直接删除处理缺失值时,需要检测样本总体缺失值的个数。Python统计缺失值的方法如下(下面结合具体数据集,直接上代码):
import numpy as np
import pandas as pd
data = pd.read_c
查看DataFrame不存在空值:
colnull=pd.DataFrame(data={'colname': temp.index,'isnulls':temp.values})
print(colnull.loc[colnull.isnulls==False,'colname'])
取出某一存在空值的记录,返回一个DataFrame
data[data.col1.isnull()]
缺失值填充
data[
np.nan不是空对象。
	对的nan进行操作时不能用"==np.nan"来判断。只能用np.isnan()来操作。
	np.nan的数据类型是float。
import numpy as np
np.nan == np.nan
Out[3]: False
aa = np.array([1,2,3,np.nan,np.nan,4,5,np.n...
				
最近在做数据处理的时候,遇到个让我欲仙欲死的问题,那就是数据空值该如何获取。 我的目的本来是获取数据的所有非零且非空值,然后再计算获得到的所有数据计算均值,再用均值把0和空值填上。这个操作让我意识到了i is None/np.isnan(i)/i.isnull()之间的差别,再此做简单介绍: 1.关于np.nan: 先明确一个问题,即空值的产生只有np.nan()一种方法。 # n...
pandas填补缺失值的方法 在处理数据的过程,经常会遇到原数据部分内容的缺失,为了保证我们最终数据统计结果的正确性,通常我们有两种处理方式,第一种就是删除掉这些部分缺失的数据;第二种就是填补这些缺失的数据。接下来,我们主要介绍填补缺失值的方法。 咱们所用到的数据: import pandas as pd import numpy as np planets = pd.read_...
1.空值处理 (1)基础知识 文件的单元格没有值时,在使用pandas读取后就会用NaN表示,也就是我们常说的空值,在NumPy模块提供了nan的值,如果你想要创建一个空值,可以使用下方代码:from numpy import nan as NaN NaN比较特殊点就是其本身是一种float类型数据,当NaN可以参与到数据计算,最终的结果却永远都是NaN。 (2)过滤空值 from numpy import nan as NaN import pandas as pd df = pd.read_exc
Python,可以使用多种方法进行插值填充空值,以下是其几种常用的方法: 1. 线性插值:使用pandas的interpolate()函数进行线性插值,可以通过设置method参数为'linear'来实现。代码示例: import pandas as pd # 创建包含空值的Series s = pd.Series([1, 2, np.nan, 4, 5, np.nan, 7]) # 线性插值 s.interpolate(method='linear', inplace=True) 2. 拉格朗日插值:使用scipy库的lagrange()函数进行拉格朗日插值,需要先将数据转换为numpy数组进行处理。代码示例: from scipy.interpolate import lagrange # 创建包含空值的Series s = pd.Series([1, 2, np.nan, 4, 5, np.nan, 7]) # 拉格朗日插值 x = s.index[s.notnull()] y = s[s.notnull()] f = lagrange(x, y) s[s.isnull()] = f(s.index[s.isnull()]) 3. 样条插值:使用scipy库的splrep()和splev()函数进行样条插值。代码示例: from scipy.interpolate import splrep, splev # 创建包含空值的Series s = pd.Series([1, 2, np.nan, 4, 5, np.nan, 7]) # 样条插值 x = s.index[s.notnull()] y = s[s.notnull()] f = splrep(x, y) s[s.isnull()] = splev(s.index[s.isnull()], f) 需要注意的是,不同的插值方法可能会对填充结果产生影响,需要根据具体情况选择合适的方法。同时,如果数据存在大量空值,可以考虑使用其他的填充方法,以提高数据的准确性。