对比MySQL学习Pandas的groupby分组聚合开发者社区

对比MySQL学习Pandas的groupby分组聚合

* DSL风格：使用面向对象的方式来操作，pandas就是采用这种方式，通俗说就是“语法顺序和执行顺序一致”。
* SQL风格：写sql语句来处理。

SELECT Column1, Column2, mean(Column3), sum(Column4)
FROM SomeTable
WHERE Condition 1  
GROUP BY Column1, Column2
HAVING Condition2

from...where...group...select...having...limit

df[Condition1].groupby([Column1,Column2],as_index=False).agg({Column3: "mean",Column4:"sum"})

select deptno,sum(sal) sums
from emp
group by deptno
having sums > 9000;

df = pd.read_excel(r"C:\Users\黄伟\Desktop\emp.xlsx")
display(df)
df = df.groupby("deptno",as_index=False).agg({"sal":"sum"})
display(df)
df1 = df[df["sal"]>9000]
display(df1)

* groupby(by=["字段1","字段2",...],as_index=True)

* by参数传入的分组字段，当只有一个字段的时候，可以直接写by="字段1"。当多字段联合分组的时候，就写成列表形式by=["字段1","字段2"]。
* as_index参数的使用如图所示

x = {"name":["a","a","b","b","c","c","c"],"num":[2,4,0,5,5,10,15]}
df = pd.DataFrame(x)
display(df)
df.groupby("name",as_index=True).agg({"num":"sum"})
df.groupby("name",as_index=False).agg({"num":"sum"})

x = {"name":["a","a","b","b","c","c","c"],"num":[2,4,0,5,5,10,15]}
df = pd.DataFrame(x)
display(df)
df.groupby("deptno").groups
df.groupby("deptno").size()

x = {"name":["a","a","b","b","c","c","c"],"num":[2,4,0,5,5,10,15]}
df = pd.DataFrame(x)
display(df)
groupdf = df.groupby("name")
for (x,y) in groupdf:
    display(x, y)

使用groupby进行分组时，分组的参数可以是如下的形式：
* 单字段分组：根据df中的某个字段进行分组。
* 多字段分组：根据df中的多个字段进行联合分组。
* 字典或Series：key指定索引，value指定分组依据，即value值相等的记录，会分为一组。
* 自定义函数：接受索引，索引相同的记录，会分为一组。

df = pd.DataFrame({"部门":["A", "A", "B", "B"],
                   "小组":["g1", "g2", "g1", "g2"],
                   "利润":[10, 20, 15, 28],
                   "人员":["a", "b", "c", "d"],
                   "年龄":[20, 15, 18, 30]})
display(df)

g = df.groupby("部门")
display(g)
for (x,y) in g:
    display(x, y)

g = df.groupby("部门")
display(g)
for (x,y) in g:
    display(x, y)

g = df.groupby({0:1, 1:1, 2:1, 3:2})
display(g)
for (x,y) in g:
    display(x, y)

df = pd.DataFrame({"部门":["A", "A", "A", "B", "B", "B"],
                   "利润":[10, 32, 20, 15, 28, 10],
                   "销售量":[20, 15, 33, 18, 30, 22]})
display(df)
df["排名"] = df["销售量"].groupby(df["部门"]).rank()
df

df = pd.DataFrame({"部门":["A", "A", "B", "B", "C", "C"],
                   "小组":["g1", "g2", "g1", "g2", "g1", "g2"],
                   "利润":[10, 20, 15, 28, 12, 14],
                   "人员":["a", "b", "c", "d", "e", "f"],
                   "年龄":[20, 15, 18, 30, 23, 34]})
df = df.set_index("部门")
display(df)
def func(x):
    if x=="A" or x=="B":
        return 0
    else:
        return 1
g = df.groupby(func)
display(g)
for (x,y) in g:
    display(x, y)

df = pd.DataFrame({"部门":["A", "A", "B", "B", "C", "C"],
                   "小组":["g1", "g2", "g1", "g2", "g1", "g2"],
                   "利润":[10, 20, 15, 28, 12, 14],
                   "人员":["a", "b", "c", "d", "e", "f"],
                   "年龄":[20, 15, 18, 30, 23, 34]})
display(df)
df["利润"].mean()
df[["年龄","利润"]].mean()

df = pd.DataFrame({"部门":["A", "A", "B", "B", "C", "C"],
                   "小组":["g1", "g2", "g1", "g2", "g1", "g2"],
                   "利润":[10, 20, 15, 28, 12, 14],
                   "人员":["a", "b", "c", "d", "e", "f"],
                   "年龄":[20, 15, 18, 30, 23, 34]})
display(df)
df.groupby("部门")["利润"].mean()
df.groupby("部门").mean()

* df.agg("mean")
* df.agg(["mean", "sum", "max"])
* df.agg({"利润":["mean", "sum"] , "年龄":["max", "min"]})
* df.agg(lambda x: x.mean())

df = pd.DataFrame({"部门":["A", "A", "B", "B"],
                   "利润":[10, 20, 15, 28],
                   "年龄":[20, 15, 18, 30]})
display(df)
df1 = df.groupby("部门").agg("mean")
display(df1)

df = pd.DataFrame({"部门":["A", "A", "B", "B"],
                   "利润":[10, 20, 15, 28],
                   "年龄":[20, 15, 18, 30]})
display(df)
df1 = df.groupby("部门").agg(["sum","mean"])
display(df1)

df = pd.DataFrame({"部门":["A", "A", "B", "B"],
                   "利润":[10, 20, 15, 28],
                   "年龄":[20, 15, 18, 30]})
display(df)
df1 = df.groupby("部门").agg({"利润":["sum","mean"],"年龄":["max","min"]})
display(df1)

df = pd.DataFrame({"部门":["A", "A", "A", "B", "B", "B"],