一、常用操作

1、数据读取

df = pd.read_csv('data/train.csv'




    
, encoding='utf-8',header=None,names=['timestamp','value','label'])
df.to_csv('data/data.csv',header=None,index=None)
# 分块查询处理
# read_csv 和 read_table
table = pd.read_table(filename, sep='\t', chunksize=1000000)
df_list = []
for df in table:
    # 对每一个分块df处理
    df_list.apend(df)
df = pd.concat(df_list, ignore_index=True)
读取数据之后，要先对数据有个初步了解，有空值的先处理空值
df.shape # 获取总行数和列数
df.dtypes # 获取每列的数据类型
df.columns # 获取所有列
df.head(n) # 获取前n行数据
df.tail(n) # 获取后n行数据
df.info() # 获取更多数据类型，包含列名、行数、数据类型
df.describe()
df['A'].nunique() # 获取A列中唯一值的数目
df['label'].value_counts() # 统计各种标签的数量
df.isnull().any() # 筛选出有缺失值的列
df.isnull().T.any() # 筛选出有缺失值的行
获取某一列的统计值
df['A'].sum() # 求和
df['A'].max() # 求最大值
df['A'].min() # 求最小值
df['A'].mean() # 求均值
df['A'].std() # 求标准差
df['A'].median() # 求中位数
查看两列数据是否存在关系，画两者的关系图
matplotlib
import matplotlib.pyplot as plt
plt.plot(df['x'],df['y'],'o') # 默认折线图，o为圆点图
# 多图画法
fig=plt.figure() # 创建画布
axes1=fig.add_subplot(2,2,1) # 子图2行2列，位置1
axes2=fig.add_subplot(2,2,2)
axes1.plot(df1['x'],df1['y'],'o') # 子图绘制图
axes2.plot(df2['x'],df2['y'],'o')
axes1.set_title("dataset1") # 子图添加小标题
axes2.set_title("dataset2")
fig.suptitle("Title Data") # 整幅图添加大标题
fig.tight_layout() # 使用紧凑布局
dataframe自带plot
# 直方图
fig,ax = plt.subplots()
ax = tips['total_bill'].plot.hist()
plot.show()
# 密度图
ax = tips['tip'].plot.kde()
# 散点图
ax = tips.plot.scatter(x='total_bill',y='tip',ax=ax)
3、处理NaN值
# 引入缺失值
from numpy import NaN,NAN,nan
df[df["date"].isnull()] # 查看某一列含有NaN的数据
# 删除NaN值，how：'any'（只要含有NaN数据就丢弃），'all'（所有数据都为NaN时丢弃）
df.dropna(axis=1, how='all',inplace=True)
df.dropna(subset=['A'],inplace=True) # 删除某个字段为空的数据
df.fillna(value=0,inplace=True) # 全部填充
df.fillna({"A":0,"B":1}) # 对不同列填充不同的值
df.fillna(method='ffill') # method：ffill（用前面的数进行填充），bfill（用后面的值填充）
df.fillna(df["score"].mean(),inplace=True) # 用均值填充
df=df.fillna(df.interpolate()) #上下两个值的平均值进行填充
df["value"] = df.groupby("name").transform(lambda x: x.fillna(x.mean())) # 分组之后用均值填充
4、创建Dataframe
df = pd.DataFrame([['a','b','c','d']],columns=['A','B','C','D'])
df = pd.DataFrame()
data_dict = {'A':'a','B':'b','C':'c','D':'d'}
df.append(data_dict ,ignore_index=True)
5、包含值而非变量列处理
# id_vars：不变的列；
# var_name：融合后的新列名；
# value_name：融合后的新列名，是var_name的值
df = pd.melt(df,id_vars='religion',var_name='income',value_name='count')
6、某列分割为多列
df_A = df.A.str.split('_')
df['status'] = df_A.str.get(0)
df['country'] = df_A.str.get(1)
7、列名更换
df.rename(columns={"A": "姓名", "B": "年龄"},inplace=True)
8、删除列和行
df.drop(["A", "B"], axis=1, inplace=True) # 删除列
df.drop(index=del_indexs, axis=0, inplace=True) # 删除行数据
9、筛选数据
## 1、loc与iloc
df[2:3]
df['20180709':'20180710']
df[df.A > 3]
df.loc['20180711']
df.loc[:,['B','C']]
df.loc[(df['A']>1) & (df['B']=='male'),:]
# 行号，索引号
df.iloc[-1]
df.iloc[1:3, 2:4]
df.iloc[[0, 2], 2:4]
# 获取某一行某一列的具体值
df1 = df[df["id"]=="2301"]
value = df1.iloc[0]["A"]
## 2、筛选包含指定字符的数据
df = df.loc[df["remarks"].str.contains('测试|安装')]
10、修改数据
df.loc[index, 'B'] = 1
df.loc[df.A>0, 'B'] = 1
df.iloc[2, 2] = 1
df.A[df.A > 3] = 1
df.A[df.C == "1"] = df.B[df.C== "1"]
11、保留小数和百分数处理
# 保留两位小数
df["A"] = round(df["A"], 2)
# 百分比显示，{0:.2}、{0:.2%}
# {0:05d}：第一个0索引值，第二个0填充的字符，5表示总共5个字符，d表示使用数字
df["ratio"] = df["ratio"].apply(lambda x: '%.2f%%' % (x * 100))
df["ratio"] = df["ratio"].apply(lambda x: '{0:.2%}'.format(x))
12、相关值替换
# 这种方法会将math列中非0元素变为NaN
df1["math"] = df1["math"].map({0:100}) 
df1.loc[df1["math"]==0,"math"] = 100
# 推荐这种方式，效率是上者的两倍以上
df.replace(to_replace=0, value=100) 
13、获得某列去重后的数据
df.drop_duplicates() # 删除完全重复的行
df.drop_duplicates(subset = 'A') # 删除字段A重复的数据，保留第一行
df.drop_duplicates(subset = 'A',keep='last') # 删除字段A重复的数据，保留最后一行
14、格式转换
# 1、df转列表字典，用于存储数据库
df_list = df.to_dict('records')
# 2、df列转换为列表形式
ids = np.array(df["id"]).tolist()
# 3、某列数据格式转换
df['value'] = df_train['value'].map(str)
df['value'] = df_train['value'].astype('int') # 效率比上者高70倍以上
df['sex'] = df_train['sex'].astype('category') # 转为分类数据
二、日期数据处理
1、加载日期列数据
df = pd.read_csv('data/train.csv',parse_dates=[0])
df['year'] = df['date'].dt.year
df.index = df['date'] # 设置日期列为索引列
2、格式转换
# 字符串转日期
df["date"] = pd.to_datetime(df["date"],format='%Y-%m-%d')
df['date'] = df['date'].apply(lambda x: datetime.strptime(x, '%Y-%m-%d'))
# 日期转字符串
df["date"] = df["date"].apply(lambda x: x.strftime("%Y-%m"))
3、处理缺失日期的数据
使用一个日期范围为数据集重建索引
head_range = df.date_range(start='2020-01-01',end='2020-12-31')
df.index = df['date']
df.reindex(head_range)
4、 按日、周、月统计
## "D":日,"W":周，"M":月
df_day = df.resample("2D", on="date", label="left").sum()
df_week = df.resample("W", on="date", label="left").sum()
# "MS"是每个月第一天为开始日期, "M"是每个月最后一天
df_month = df.resample("MS", label="left",closed="left").sum()
三、合并数据
1、concat
# join：'outer'（默认，取并集）， 'inner'（取交集），以下为按列合并，数据行取交集
# ignore_index：是否重排行索引
df = pd.concat([df1, df2, df3], join='inner', axis=1, ignore_index=True)
# 按行合并
df = pd.concat([df1, df2], axis=0, ignore_index=True)
1、按列合并之后，如果连接方式为"inner"，则最终数据条数由少的决定，长度长的数据下边就会丢失；如果连接方式为"outer"，则最终数据条数由多的决定，长度短的数据下边由NaN进行填充。
2、按行合并之后，如果连接方式为"inner"，则最终数据列数为两个表共同的列，不同的列就会丢失；如果连接方式为"outer"，则最终列为两个表所有列并集，缺失的值由NaN进行填充。
3、只保留索引匹配的结果。
2、merge
# how：'inner', 'outer', 'left', 'right'
df = pd.merge(df3, df4, on=['key1', 'key2'], how='right')
df = pd.merge(df3, df4, left_on='key1', right_on='key2')
注意问题：
1、有时候merge会出错，主要由于数据中有重复数据，要先去掉重复数据再merge
df.drop_duplicates(subset='game_id', keep=False, inplace=True)
2、合并之后，最好先删除之前的索引，方便以后的计算
df.reset_index(drop=True, inplace=True)
四、排名与排序
1、排名，生成排序序号列。不改变数据顺序
df["rank"] = df["A"].rank(ascending=False, method='min')
# 分组排序
df['A_sort']=df['A'].groupby(df['B']).rank(ascending=False,method='min')
排名列数据格式为float64。
method有四种类型："first": 根据值在数组中出现的顺序进行排名 ,
"min": 用整个分组的最小排名 ,"max": 用整个分组的最大排名 ," average ":默认方式，平均排名
2、排序，改变数据顺序
df = df.sort_values(by=["B"




    
],ascending=[False])
五、分组和切分
1、分组统计
df_group1 = df1.groupby(by=["class_id"], as_index=False).apply(max)
df_group2 = df1.groupby(by=["class_id"])[["math","english"]].apply(max).reset_index()
2、分组求和
df_sum = df.groupby(by=["A","B"], as_index=False)["math", "english", "chinese"].sum().reset_index()
3、分组计数
df_count = df.groupby(by=["A","B"], as_index=False)["id"].count().reset_index()
4、分组求累加值
df["cumsum"] = df["A"].groupby(by=["id"], as_index=False).cumsum().reset_index()
注：在分组统计时，如果某列含有空值（“”），会造成对该列分组统计出现问题。
解决方式：再分组统计之前先对空值进行替换。
df.replace("",0,inplace=True)
groupby分组默认会把分组依据列变成索引，可以用reset_index方法重置或者说取消索引，将它保留在列的位置，维持DataFrame格式，方便后续匹配。
切分常用于一维数组的分类和打标
df["label"] = pd.cut(x = df['A'],bins = [0,60,80,90，100],right = False,labels = ['不及格','及格','良','优'])
6、agg
df_mean = df.groupby(by=["A","B"], as_index=False)["math"].agg(np.mean)
def my_mean_diff(values,diff_value):
    n = len(values)
    sum = 0
    for value in values:
        sum+=value
    mean = sum/n
    return mean-diff_value
agg_mean_diff = df.groupby('year').lifeExp.agg(my_mean_diff,diff_value=df.lifeExp.mean())
df_dict = df.groupby('year').agg({
	'lifeExp':'mean',
	'pop':'median',
7、transform
def fill_na_mean(x):
    avg = x.mean()
    return x.fillna(avg)
df['fill_score'] = df.groupby('sex').score.transform(fill_na_mean)
8、过滤器filter
df_filter = df.groupby('size').filter(lambda x:x['size'].count()>=10)
1、apply用法
def f(x):
    if x == 'male':
        return '男'
    elif x == 'female':
        return '女'
df["sex"] = df["sex"].apply(f)
# 还可以采用以下两种方式
df["sex"] = df["sex"].apply(lambda x: '男' if x == 'male' else '女')
df["sex"] = df["sex"].map({'male': '男'})
注：map比apply效率要高。简单的替换优先选用map，复杂操作需要使用apply配合编写的规则函数来实现。
2、apply传参
def circle_rate(df,arg1,arg2,arg3):
    x = df[arg1]
    y = df[arg2]
    z = df[arg3]
    return x - y if y==z else (x-y)/(y-z)
df["day_bef"] = df.apply(circle_rate, axis=1, arg1="anzhuang", arg2="anzhuang_bef", arg3="anzhuang_bef_bef")
df["day_bef"] = df.apply(circle_rate, axis=1, args=("anzhuang","anzhuang_bef","anzhuang_bef_bef"))
3、向量化函数
使用numpy
@np.vectorize
def divide(x, y):
    if y == 0:
        return np.NaN
    else:
        return x / y
df['C'] = divide(df['A'], df['B'])
使用numba
@numba.vectorize
def divide_numba(x, y):
    if int(y) == 0:
        return np.NaN
    else:
        return x / y
df['C'] = divide_numba(df['A'].values, df['B'].values)
七、其他操作
1、pivot_table和pivot
透视表函数
df_pivot = pd.pivot(df, index="cs", columns="rate").reset_index()
df_pivot_table = pd.pivot_table(df,index=["A","B"],columns="rate",aggfunc="count").reset_index()
#画Heatmap图
df_pivot = pd.pivot(df, index="cs", columns="rate")
plt.pcolor(df_pivot ,cmap='RdBu')
plt.colorbar()
plt.show()
pivot与pivot_table区别：
pivot要求行与列的交叉值的索引必须唯一，否则会报错。
pivot_table会将重复索引的值求均值。
2、并行计算
from pandarallel import pandarallel
pandarallel.initialize(nb_workers=2)  # 初始化该这个b...并行库
df["B"] = df["A"].parallel_apply(func)
注意pandarallel目前只能用在linux和maco，不能用在windows下
八、遇到的坑
1、merge操作时，如果left连接，merge之后有NAN值，该列整数类型会变为浮点类型。inner连接即可解决。或者填充之后，在转换该列数值类型。
2、df1=df与df1=df.copy()都是对df的引用。如果想要一个完全独立的dataframe，一定要用df1=df.copy(deep=True)
  
 
   相关推荐
   
        Mr_Darcy8
        掘金·日新计划
      
    Pandas数据分析之字符串处理
 不难发现我们一直是在针对数字进行处理，这要求我们在统计获取数据之初就对数据进行编码。但是实际生活中会出现很多无法统一标准的数据。我们需要对此类数据直接进行字符串的处理
  4308
 
 
        Mr_Darcy8
        掘金·日新计划
      
    Pandas数据分析之groupby妙用
 groupby这个分组函数还是蛮有用的，有了这个分组之后你可以实现很多统计目标。各个商品的购买量，各个商品的浏览量 ，各个商品的转化率，转化率最高的30个商品及其转化率
  3187
 




    
 
        不思量自难忘
        Python
      
    pandas系列之数值替换
 这是pandas系列第十四篇，主要讲述了数值替换，包括一对一替换，多对一替换和多对多替换这3种替换方式。
  1768
 
 
        不思量自难忘
        Python
      
     pandas系列之数值排名
 这是pandas系列第十六篇，主要讲述了数值排名的内容，这一篇方法不多，参数取值比较难于理解，所以本文重点在于对参数取值的情形的展示与分析上。
  778
 
 
        不思量自难忘
        Python
      
    pandas系列之数值删除
 这是pandas系列第十七篇，主要讲述了数值删除的内容，主要包含按行删除和按列删除这2大类，每类下面又有按照索引删除和按照位置删除这2种删除方式
  632
 
 
        不思量自难忘
        Python
      
     pandas系列之数值排序
 这是pandas系列第十五篇，主要讲述了数值排序的内容，介绍了按一列数值和多列数值进行排序这2种方式，以及排序过程中对缺失值的处理等内容。
  769
 
 
        tigeriaf
        Python
        pandas
      
    Pandas数据分析面试基础题（一）
 Pandas是基于NumPy的一个开源的Python库，常用于数据处理及分析，提供了大量的函数及方法，可以高效地对数据集进行操作处理，与Numpy、Matplotlib并称为数据分析三剑客。
  3109
 




    
 
        不思量自难忘
        Python
      
    pandas系列之数值计数与数值查找
 这是pandas系列第十八篇，主要围绕数值计数和数值查找展开。其中，数值计数包括个数统计和占比统计，数值查找包括按列查找和全表查找这2种查找方式
  1081
 
 
        勇哥的ID
      
    Python数据分析之pandas,matplotlib,numpy
 Seaborn是对Matplotlib的进一步封装，其强大的调色功能和内置的多种多样的绘图模式，使之成为当下最流行的数据科学绘图工具。本章将介绍Seaborn的基本使用，以及和matplotlib的功能对比。 通过前六章的学习，我们基本上掌握了数据分析领域里主要工具的使用，本章…
  2611
 
 
        王伟同学44009
        Python
        NumPy
      
    Pandas数据结构详解 | 轻松玩转Pandas（1）
 Pandas 有很多高级的功能，但是想要掌握高级功能前，需要先掌握它的基础知识，Pandas 中的数据结构算是非常基础的知识之一了。 Pandas 常用的数据结构有两种：Series 和 DataFrame。这些数据结构构建在 Numpy 数组之上，这意味着它们效率很高。我们来…
  4680
 
 
      
    python 数据分析工具包 pandas（一）
 1. 简单介绍 pandas 是专为 python 编程语言设计的高性能，简单易用的数据结构和数据分析工具库，它建立在 numpy 之上，可以许多第三方库完美集成在同一个科学计算环境中。pandas 被广泛应用于金融，统计，社会科学和许多工程技术领域，处理典型数据分析案例。 2…
  1723
 
 
      
    用pandas分析事件附近的股票数据
 股票收益可能会受到某些事件的严重影响。有时这些事件是出乎意料的或令人惊讶的（自然灾害，全球大流行病，恐怖主义），其他时候它们是预定的（总统选举，收益公告，金融数据发布）。我们可以用pandas来获取金
  761
 
 
        红烧不是清蒸
        Python
      
    12种用于Python数据分析的Pandas技巧
 依靠完善的编程语言生态系统和更好的科学计算库，如今Python几乎已经成了数据科学家的首选语言。如果你正开始学习Python，而且目标是数据分析，相信NumPy、SciPy、Pandas会是你进阶路上的必备法宝。尤其是对数学专业的人来说，Pandas可以作为一个首选的数…
  1385
 
 
        pandas
      
    Pandas使用经典案例
 小而全的Pandas数据分析案例 写过很多关于Pandas的文章，本文开展了一个简单的综合使用，主要分为： 如何自行模拟数据 多种数据处理方式 数据统计与可视化 用户RFM模型 用户复购周期 构建数据
  6801
 
 
        Pans70645
        计算机视觉
      
    Pandas的数据过滤
 作者|AmandaIglesiasMoreno编译|VK来源|TowardsDatasScience从数据帧中过滤数据是清理数据时最常见的操作之一。Pandas提供了一系列根据行和列的位置和标签选择数
  1940
 
 
    程序员进化者
       
   私信
一、常用操作

1、数据读取

matplotlib

dataframe自带plot

3、处理NaN值

4、创建Dataframe

5、包含值而非变量列处理

6、某列分割为多列

7、列名更换

8、删除列和行

9、筛选数据

10、修改数据

11、保留小数和百分数处理

12、相关值替换

13、获得某列去重后的数据

14、格式转换

二、日期数据处理

1、加载日期列数据

2、格式转换

3、处理缺失日期的数据

4、 按日、周、月统计

三、合并数据

1、concat

2、merge

四、排名与排序

1、排名，生成排序序号列。不改变数据顺序

2、排序，改变数据顺序

五、分组和切分

1、分组统计

2、分组求和

3、分组计数

4、分组求累加值

6、agg

7、transform

8、过滤器filter

1、apply用法

2、apply传参

3、向量化函数

使用numpy

使用numba

七、其他操作

1、pivot_table和pivot

2、并行计算

八、遇到的坑

4、按日、周、月统计