可解释的机器学习库—SHAP

2.工作原理

假设第i个样本为xi，第i个样本的第j个特征为xij，模型对该样本的预测值为yi，整个模型的基线（通常是所有样本的目标变量的均值），为y_base，那么SHAP value服从以下等式：

其中，f(xij)为当前特征的SHAP值，即第i个样本中的当前特征对最终预测值yi的贡献值，当f(xij)>0，就说明该特征提升了预测值，有正向作用；反之，说明该特征使得预测值降低，有反作用。

传统的feature importance只告诉我们哪个特征重要，但是我们并

SHA P（ SHa pley Additive exPlanations）是一种用于解释预测结果的方法，它基于 Sha pley值理论，通过将预测结果分解为每个特征的影响，为模型提供全局和局部的可解释性。在建立模型之前，特征重要性能够帮助训练模型，防止过拟合，提升模型的RUC效果。建立模型之后，特征重要性能够增强模型（集成模型非深度学习模型）的可解释性，帮助建立模型信任、做出现实意义上的决策。建模前特征重要性判别要构建数值型连续变量的监督学习模型，最重要的方面之一就是好好理解特征。观察一个模型的部分依赖图有助于理解模型的... 本文中有多篇计划文章，后期会补充相关链接。鉴于公众号内无法后期修改文章，请关注原文链接。如何创建和解释 SHA P 图：瀑布图、力图、平均 SHA P 图、蜂群图和依赖图可直接在橱窗里购买，或者到文末领取优惠后购买： SHA P 是用于理解和调试模型的最强大的 Python 包。它可以告诉我们每个模型特征对单个预测的贡献。通过汇总 SHA P 值，我们还可以了解多个预测的趋势。只需几行代码，我们就能识别和可视化模型中的重要关系。我们将介绍用于计算和显示 SHA P 值的代码。上面这个图就是一个比较直观的解释 机器学习 模型一般都是一个黑盒。比如某个模型要进行一些预测任务，首先对模型输入一些已知条件（Age=65,Sex=F,BP=180,BMI=40），然后模型根据输入进行训练，最终训练完的模型可以对该条件输出预测结果（Output=0.4）所以这样模型只能得到最终的结果，至于模型内部是怎么计算的，输入的已知条件（... 8月上旬使用Python SHA P中 summary_plot()时，画出来的图依然是各特征的 sha p value，图状为beeswarm，但在中旬重新跑该段代码时，画出来的图为mean(| sha p value|)，图状为柱状图。 SHA P修改之后： fig = plt.figure() sha p.summary_plot( sha p_values, data[cols], show = False, max_display = 30) plt.tight_layout() plt.savefig('5-2 今天给大家分享一个神奇的 python 库， sha p SHA P 是一种流行的 机器学习 解释性框架，用于解释预测模型的输出。通过利用合作博弈论， SHA P 为每个特征分配一个值，反映其对特定实例预测的贡献。 SHA P 库特别适用于解释复杂的 机器学习 模型，如随机森林、梯度增强机和深度神经网络。我们知道模型可解释性已成为 机器学习 管道的基本部分，它使得 机器学习 模型不再是"黑匣子"。幸运的是，近年来 机器学习 相关工具正在迅速发展并变得越来越流行。本文主要是针对回归问题的 SHA P 开源 Python 包进行 XAI 分析。 Lundberg 和 Lee (2016) 的 SHA P（ Sha pley Additive Explanations）是一种基于游戏理论上最优的 Sha pley value来解释个体预测的方法。 Sha pley value是合作博弈论中一种广泛使用的方法，它具有令人满意的特性。从博弈针对消费金融，现金贷等线上贷款场景，教会学员如何运用python+catboost+lightgbm等算法建立风控模型。实操项目包括(1)美国金融科技公司lendingClub 12万真实数据（分类器模型）(2)移动杯模型竞赛：消费者人群画像-信用智能评分模型竞赛（回归模型）。讲师：Toby，持牌照消费金融模型专家，发明金融模型算法专利，和中科院，清华大学，百度，腾讯，同盾，聚信立等平台保持长期项目合作；与国内多所财经大学有模型项目。熟悉金融风控和企业信用评级业务，包括现金贷，商品贷，医美，反欺诈等。擅长Python 机器学习 建模，对变量筛选，衍生变量构造，变量缺失率高，正负样本不平衡，共线性高，多算法比较，调参等有良好解决方法。原创公众号（python风控模型） kaggle模型竞赛大杀器 smote非平衡数据处理