分享一个能够写在简历里的企业级数据挖掘实战项目开发者社区

分享一个能够写在简历里的企业级数据挖掘实战项目

import missingno as msno
msno.matrix(data)

import seaborn as sns
sns.kdeplot(null['缺失比'],shade=True)

# 定义盖帽法函数
def block_lower(x):
# x是输⼊入的Series对象,替换1%分位数
    ql = x.quantile(.01)
    out = x.mask(x<ql,ql)
    return(out)
def block_upper(x):
# x是输⼊入的Series对象,l替换99%分位数
    qu = x.quantile(.99)
    out = x.mask(x>qu,qu)
    return(out)

方法	说明
方差过滤	方差等于0 的直接过滤，结果无过滤特征
F_检验	过滤没有相关性的变量。pvalues_f < 0.01 直接过滤，过滤掉6个特征
嵌入法特征选择	经过选择，等到贡献最大的8个特征

# 主要代码
X_embedded = SelectFromModel(RFC_clf,
        threshold=i).fit_transform(Xtrain,Ytrain)
val = cross_val_score(RFC_clf,
                      X_embedded,
                      Ytrain,cv=5).mean()
score.append(val)

sns.heatmap(Xtrain_new.corr(),
            annot=True,linewidths=1)

ax = plt.figure(figsize=(8,15))
for i in range(len(train_data.columns[:-1])):
    ax.add_subplot(8,1,i+1)
    sns.kdeplot(train_data.iloc[:,i],shade=True)
    plt.title(l_[i])
plt.tight_layout();

from sklearn.linear_model import LogisticRegression
LR = LogisticRegression().fit(X_train,Y_train)

	LR.score(X_train,Y_train)	LR.score(X_test,Y_test)
score	0.728283	0.726898

core metrics
+-------+----------+-----------+--------+-------+
|  auc  | accuracy | precision | recall |   f1  |
+-------+----------+-----------+--------+-------+
| 0.675 |  0.727   |   0.741   |  0.951 | 0.833 |
+-------+----------+-----------+--------+-------+

from sklearn.metrics import auc,accuracy_score,recall_score,f1_score
y_score = LR.predict_proba(X_test)  # 随机森林
fpr, tpr, thresholds = roc_curve(Y_test, y_score[:, 1])
roc_auc = auc(fpr, tpr)
def drawRoc(roc_auc,fpr,tpr):
    plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
    plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
drawRoc(roc_auc, fpr, tpr)

	LR.score(X_train,Y_train)	LR.score(X_test,Y_test)
score	0.732319	0.731017

core metrics
+--------+----------+-----------+--------+-------+
|   auc  | accuracy | precision | recall |   f1  |
+--------+----------+-----------+--------+-------+
| 0.6895 |  0.731   |   0.745   | 0.949  | 0.835 |
+--------+----------+-----------+--------+-------+

model = RFC(n_estimators=180
            ,max_depth=20
            ,min_samples_leaf=1
            ,min_samples_split=2
            ,random_state=0)

 groupby(['rfm\_group','label'])

 groupby(['rfm\_group','label'])

number(-1) = (number_0 -number_1)\*log(sum(rfm_score)_0/sum(rfm_score)_1)

# 显示图形
bar3d = Bar3D("", width=900, height=600)
range_color = ['#313695', '#4575b4', '#74add1', '#abd9e9', '#e0f3f8', '#ffffbf',
               '#fee090', '#fdae61', '#f46d43', '#d73027', '#a50026']
bar3d.add(
    "rfm分组结果",  "", "",
    [d.tolist() for d in data_display.values],
    is_visualmap=True,
    visual_range=[0, data_display['number'].max()],
    visual_range_color=range_color,
    grid3d_width=200,
    grid3d_height=80,
    grid3d_depth=80
bar3d

model = RFR(n_estimators=180
                       ,max_depth=25
                       ,min_samples_leaf=1
                       ,min_samples_split=2
                       ,random_state=0

分享一个能够写在简历里的企业级数据挖掘实战项目

分享一个能够写在简历里的企业级数据挖掘实战项目

项目背景

项目目的

数据说明

模型选择

数据预处理

数据探索

缺失值矩阵可视化

缺失值分布

数据清洗

去除重复值

异常值处理

缺失值处理

特征选择

嵌入法特征选择学习曲线

过滤高度相关的特征

客户流失预测模型

特征变量分析

WOE分箱

特征IV值

计算Cr的IV值

Lasthtlordergap 一年内距上次下单时长

H 访问时间点

Cityorders 昨日提交当前城市同入住app订单数

visitnum_oneyear 年访问次数

WOE值与特征转换

逻辑回归模型建立与评估

建立逻辑回归

评估逻辑回归

ROC曲线

模型改进

生成衍生变量

模型改进评估

随机森林分类模型

模型建立与调参数

模型评估

客户价值

RFM客户价值模型

数据预处理

价值模型

可视化价值模型

客户转化预测

数据处理与特征创造与选择

模型训练与调参数

项目总结

用户画像