对定类变量进行数据编码,可以浓缩或整合原始数据,有助于提高数据的安全性和传输效率。
可检测与处理变量数据中包含的异常值,异常值检测逻辑是对变量的数据集(类似于列)按照设置的阈值进行判定,筛选出落在异常值检测范围内的数据,再根据处置方法将原数据替换。
MAD(Mean Absolute Deviation)指的是平均绝对偏差,假定数据服从正态分布,让异常点(outliers)落在两侧的50%的面积里,让正常值落在中间的50%的区域里。
四分位距(Interquartile Range, IQR)是上四分位与下四分位的差值。而我们通过IQR的1.5倍为标准,规定:超过(上四分位+1.5倍IQR距离,或者下四分位-1.5倍IQR距离)的点为异常值。
当数据服从正态分布时,±3∂的概率是99.7%,则距离平均值3∂之外的值出现的概率为P(|x-u| 3∂) = 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。
检查与剔除无效样本,个案实际就是单个样本,一个样本由有限个变量的数据集组成,个案处理是对众多样本的变量数据集进行校验检测,筛除无效样本(含重复),是对行的标记处理。
根据研究需要可以在原始变量基础上根据公式生成新的变量用以深入分析,例如生成平均值、求和、Z标准化、中心化等。
通过一些处理使得数据去量纲化,使得来自不同量纲或不同数量级的数据能够进行比较和分析。方法包括min-max标准化、z-score标准化、归一化、中心化等。
用于一些分类、回归算法的变量生成方法,变换方法包括哑变量化和独热编码。
⚪作用:对离散特征编码,具有k(去重变量数)-1个二进制特征 ⚪适用场景:哑变量化会减少统计建模的自由度(df)参数,其体现为把某一个分类型变量各个值对应的权重都增加某一数值,同时把另一个分类型变量各个值对应的权重都减小某一数值,而模型不变,一般应用在不使用正则化的回归/分类模型。
⚪作用:对离散特征编码,具有k(去重变量数)个二进制特征 ⚪适用场景:独热编码会每个分类型变量的各个值的地位就是对等的,一般应用在使用正则化的回归/分类模型。
对缺失值进行识别与填充处理 ⚪缺失值类型:空值、空格、字符串“None” ⚪处理方式:剔除标记、填充 ⚪填充规则:统计量填充、规则填充、插值填充、模型填充
均值 中位数 众数 三倍标准差 负三倍标准差
纵向用缺失值上面的值替换缺失值 纵向用缺失值下面的值替换缺失值 若某行全为缺失值 剔除所在行 固定值M填充
Nearest最近点数值填充 Zero零阶插值填充 Linear线性插值填充 Quadratic二次插值填充 Cubic三次插值填充
最小二乘填充 贝叶斯填充 决策树填充 K近邻填充