Pandas 对数值进行分箱操作的4种方法总结对比

deephub

AI方向文章，看头像就知道，这里都是"干"货

使用 Pandas 的between 、cut、qcut 和 value_count离散化数值变量

分箱是一种常见的数据预处理技术有时也被称为分桶或离散化，他可用于将连续数据的间隔分组到“箱”或“桶”中。在本文中，我们将讨论使用 python Pandas 库对数值进行分箱的 4 种方法。

我们创建以下合成数据用于演示

import pandas as pd # version 1.3.5 
import numpy as np 
def create_df(): 
	df = pd.DataFrame({'score': np.random.randint(0,101,1000)}) 
	return df 
create_df() 
df.head()

数据包括 1000 名学生的 0 到 100 分的考试分数。而这次的任务是将数字分数分为值“A”、“B”和“C”的等级，其中“A”是最好的等级，“C”是最差的等级。

1、between & loc

Pandas .between 方法返回一个包含 True 的布尔向量，用来对应的 Series 元素位于边界值 left 和 right[1] 之间。

参数有下面三个：

left：左边界
right：右边界
inclusive：要包括哪个边界。可接受的值为 {“both”、“neither”、“left”、“right”}。

根据以下间隔规则将学生的分数分为等级：

A: (80, 100]
B: (50, 80]
C: [0, 50]

其中方括号 [ 和圆括号 ) 分别表示边界值是包含的和不包含的。我们需要确定哪个分数在感兴趣的区间之间，并为其分配相应的等级值。注意看下面的不同的参数表示是否包含边界

df.loc[df['score'].between(0, 50, 'both'), 'grade'] = 'C'