pandas groupby分组对象的组内排序解决方案

2021-03-26 09:14:05 作者：guofei_fly

这篇文章主要介绍了pandas groupby分组对象的组内排序解决方案，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

根据数据某列进行分组，选择其中另一列大小top-K的的所在行数据

求解思路很清晰，即先用groupby对数据进行分组，然后再根据分组后的某一列进行排序，选择排序结果后的top-K结果

取一下dataframe中B列各对象中C值最高所在的行

df = pd.DataFrame({"A": [2, 3, 5, 4], "B": ['a', 'b', 'b', 'a'], "C": [200801, 200902, 200704, 201003]})

Groupby的基本功能介绍

groupby以后返回DataFrameGroupBy对象，实际上还没有进行任何计算，只是一个暂时存储的容器，

[In]df.groupby('B') [Out]<pandas.core.groupby.DataFrameGroupBy object at 0x11800f588>

对groupby结果进行简单的列选取返回的也是DataFrameGroupBy/SeriesGroupBy对象，无法可视化

[In]df.groupby('B')['A'] # 返回SeriesGroupBy对象 [Out]<pandas.core.groupby.SeriesGroupBy object at 0x117f6b630> [In]df.groupby('B')['A','C'] # 返回DataFrameGroupBy对象 [Out]<pandas.core.groupby.DataFrameGroupBy object at 0x117fb84e0>

需要对DataFrameGroupBy进行计数、统计、agg聚合计算、apply映射计算和transform等操作，才能生成可视化的数据(下文仅以count和size函数为例展示，不涉及其它的操作)

[In] df.groupby('B', as_index=False)['A'].count() # 组内数据统计 [Out] B A 0 a 2 1 b 2 [In] df.groupby('B')['A'].size().reset_index(name='Size') # 组内数据统计，size和count的一个显著区别在于count不考虑Nan，size考虑Nan [Out] B Size 0 a 2 1 b 2

解决方案一：

对DataFrameGroupBy对象，用apply函数进行某列的sort_values排序，再选出其中的最大值所在行

# 返回值是一个带有multiindex的dataframe数据，其中level=0为groupby的by列，而level=1为原index [In] df.groupby('B').apply(lambda x: x.sort_values('C', ascending=False)) [Out] A B C a 3 4 a 201003 0 2 a 200801 b 1 3 b 200902 2 5 b 200704 # 通过设置group_keys参数对multiindex进行优化 [In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False)) [Out] A B C 3 4 a 201003 0 2 a 200801 1 3 b 200902 2 5 b 200704 # 再次groupby，并调用内置的first()方法，取最大值 [In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False)).groupby('B').first().reset_index() [Out] B A C 0 a 4 201003 1 b 3 200902