相关文章推荐
兴奋的草稿纸  ·  如何从spark scala ...·  3 周前    · 
发呆的春卷  ·  spark ...·  3 周前    · 
精明的白开水  ·  A network-related or ...·  5 月前    · 
刚失恋的木瓜  ·  javascript - ...·  1 年前    · 
爱喝酒的白开水  ·  ubuntu - squid proxy ...·  1 年前    · 
耍酷的生菜  ·  Other way for ...·  1 年前    · 

groupby 同时对 字符串 数值型 数据进行求和时,只能对数值型求和。

import pandas as pd
data = pd.DataFrame({'A':[1,1,2,2,2],'B':[1,2,3,4,5],'C':['1','2','3','4','5']})
data.info()
data.groupby(['A'])['B','C'].sum().reset_index()
data['C'] = data['C'].astype(int)
data.info()
data.groupby(['A'])['B','C'].sum().reset_index()
                                    字符串处理
Pandas字符串提供了形如“obj.str.方法()”的一系列命令支持,这些方法一般在数据清洗、转换时使用。
s = Series(['Beauty and the Beast', 'Captain America: Civil War', 
'Jurassic World', 'Toy Story'])
help(s.str)		# 显示 s.str帮助
s.str.len()     		# 返回字符串长度
s.str.split()   		# 分割字符串
s.str[:6]     
                                    black_list = df_filter.query(“is_black_x == ‘1’”)[‘open_id_x’].unique().tolist()
nan与none相关
#1 查看含有nan的行
df[df.isna().any(axis=1)]
删除有nan的行
df.drop(df[np.isnan(df.group_click_num)&np.isnan(df.individual_click_num)].index, inplace=True)
#判断每列是否有缺失指
本节用一份Seaborn 程序库行星数据来进行演示
2.Pandas的简单累计功能
df.sum(axis=None, skipna=None, level=None, numeric_only=None, min_count=0, **kwargs)
describe() 方法可以计算每一列的若干常用统计值
Pandas的累计方法
根据研究目的,将所有样本点按照一个或多个属性划分为多个组,就是分组。
pandas中,数据表就是DataFrame对象,分组就是groupby方法。将DataFrame中所有行按照一列或多列来划分,分为多个组,列值相同的在同一组,列值不同的在不同组。
分组后,就得到一个groupby对象,代表着已经被分开的各个组。后续所有的动作,比如计数,求平均值等,都是针对这个对象,也就是都是针对各个组。即在每个组组内进行计数,求平均值等。
分组的返回结果
df = pd.DataFrame([['a'
                                    在pandas里对于数值字段而言,groupby后可以用sum()、max()等方法进行简单的处理,对于字符串字段, 如果把它们的值拼接在一起,可以用使用 str.cat() 和 lamda 方法。
如,将下面表格中的内容,对skill字段按照id进行分组合并
实现代码:
import pandas as pd
file_name='test.xlsx'
df=pd.read_excel(file_name)
data=df.groupby('id')['skill'].apply(lambda x:
chengji=[[2,600100,95,100,"fe1"],[2,600100,98,99,"fe2"],[2,600100,95,98,"fe3"],[3,89774,98,97,"fe3"],[2,89774,90,96,"fe3"],[3,89774,94,93,"fe4"]]
data=pd....
                                    DataFrame.apply(func, axis=0, broadcast=None, raw=False, reduce=None, result_type=None, args=(), **kwds):
其中axis=0对行操作;axis=1代表对列操作
def add_crits(crit1,crit2,crit3):
    return (crit1+crit2+crit3)
                                    pandas中Series和DataFrame基本操作。设有DataFrame结果的数据a如下所示:a bcone4 1 1two6 2 0three6 1 6一、查看数据(查看对象的方法对于Series来说同样适用)1.查看DataFrame前xx行或后xx行a=DataFrame(data);a.head(6)表示显示前6行数据,若head()中不带参数则会显示全部数据。a.tail(6)表示...
                                    pandasgroupby函数用法详解1 groupby()核心用法2 groupby()语法格式3 groupby()参数说明4 groupby()典范例
1 groupby()核心用法
(1)根据DataFrame本身的某一列或多列内容进行分组聚合,(a)若按某一列聚合,则新DataFrame将根据某一列的内容分为不同的维度进行拆解,同时将同一维度的再进行聚合,(b)若按某多列聚合,则新D...
                                    pandas 之分组利器groupby使用注意
https://blog.csdn.net/weixin_39750084/article/details/81008259
Pandasgroupby+agg+merge及describe实现各类分组统计及一些实用技巧
https://blog.csdn.net/m0_37870649/article/details/8097980...