一个决策树:
在这里插入图片描述

1. 模型解释性

解释决策树很简单,从根节点开始,根据边的判断,转到下一个子集,直到走到叶节点,得到结果。所有的边都由AND连接。
解释模板可以是:如果特征x比阈值c[大/小] AND …那么预测结果是该叶子节点中所有实例y的平均值。

衡量特征重要性:
计算方法:
遍历使用该特征的所有划分点,计算它与父节点相比降低了多少(比例)结果的方差或基尼指数。另一方面也说明,每个特征的重要性都可以理解为整个模型解释性的一部分。

树分解(单实例解释):
书上写了一大段,整合一下就是,还原该实例经过的路径,累加经过节点(特征)的贡献。

2. 例子

预测自行车租赁量的小决策树:
在这里插入图片描述
树的结构显示温度和时间趋势都被用于划分,但没有量化哪个特征更重要。于是用方差做了量化分析:

在这里插入图片描述
根据结果,时间趋势远比温度重要。

3. 优缺点

  1. 适合捕捉特征间的交互信息。
  2. 解释非常简单。
  3. 树的结构直接可视化模型。
  4. 产生的解释对人类很友好。
  1. 没法处理线性关系。
  2. 不稳定, 由于树的层次性,训练集不同会导致完全不一样的决策树。
  3. 不平滑,特征值一点小变化可能影响分类结果。
  4. 深度增加,叶子节点数量剧增。
《Interpretable machine learning》 Christophm一个决策树:1. 模型解释性解释决策树很简单,从根节点开始,根据边的判断,转到下一个子集,直到走到叶节点,得到结果。所有的边都由AND连接。解释模板可以是:如果特征x比阈值c[大/小] AND …那么预测结果是该叶子节点中所有实例y的平均值。衡量特征重要性:计算方法:遍历使用该特征的所有划分点,计...
1.背景介绍 决策树 模型是一种常用的 机器学习 算法,它可以用于解决分类和回归问题。 决策树 模型具有很高的可 解释性 ,因此在业务理解方面具有很大的优势。在这篇文章中,我们将深入探讨 决策树 模型的可 解释性 与业务理解,并讨论其在现实业务中的应用。 1.1 决策树 模型简介 决策树 模型是一种基于树状结构的机
1.背景介绍 神经 决策树 (Neural Decision Trees, NDT)是一种结合了 决策树 和神经网络的新型 机器学习 算法。它能够在处理高维数据和复杂模型的同时,保持较高的 解释性 和可 解释性 。在过去的几年里,神经 决策树 在多个领域取得了显著的成果,如图像分类、自然语言处理和推荐系统等。然而,神经 决策树 的可 解释性 和透明度仍然是一个热门的研究话题。 在本文中,我们将深入探讨神经 决策树 的可 解释性 与透...
①特征选择 特征选择决定了使用哪些特征来做判断。在训练数据集中,每个样本的属性可能有很多个,不同属性的作用有大有小。因而特征选择的作用就是筛选出跟分类结果相关性较高的特征,也就是分类能力较强的特征。 在特征选择中通常使用的准则是:信息... 决策树 是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。 ID3 决策树 :(基本已被淘汰,但很经典) 1.信息熵与信息增益: 信息增益: 2.实现步骤: ① 使用信息熵度量类别标签对样本整体的不确定性。 ② 使用信息熵度量每个特征不同取值的不确定性。 ③ 使用信息增益决定 决策树 分支的划分依据。 3.代码实现: from numpy import * def calcShannonEnt(d 熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。 1948年,香农Claude E. Shannon引入信息(熵),将其定义为离散随机事件的出现概率。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以说,信息熵可以被认为是系统有序化程度的一个度量。
论文地址:https://arxiv.org/pdf/2004.00221.pdf 源码地址:https://link.zhihu.com/?target=https%3A//github.com/alvinwan/neural-backed-decision-trees 在线示例:https://research.alvinwan.com/neural-backed-decision-trees/ 原博文地址:https://zhuanlan.zhihu.com/p/136015811?utm_so
[《Interpretable Machine Learning》 Christoph Molnar](https://christophm.github.io/interpretable-ml-book/index.html) 内容围绕:对于一个训练好的线性模型,怎样去向模型使用者(客户)解释这个模型(参数含义、为什么得会得出这种预测结果)。 上图为一个线性回归的单个实例,最后一项为误差。
要提高 机器学习 模型的可 解释性 和可信度,可以考虑以下几个方面: 1. 特征选择与工程:选择合适的特征对模型的 解释性 很重要。通过领域知识和特征工程技巧,构建具有 解释性 的特征,使模型更容易理解和解释。 2. 使用可解释的模型:选择一些可 解释性 较强的模型,如 决策树 、逻辑回归等。这些模型能够提供清晰的规则或权重,更易于理解和解释。 3. 可视化技术:通过可视化技术将模型的结果呈现出来,如特征重要性图、决策路径等。这样可以直观地展示模型的决策过程,增强可 解释性 。 4. 模型评估与验证:进行严格的模型评估和验证,使用交叉验证、验证集等方法来评估模型的性能和稳定性,确保模型的可信度。 5. 解释性 算法与方法:使用专门设计的 解释性 算法和方法来解释模型的预测结果。例如,局部敏感性分析、特征重要性分析等方法可以帮助理解模型的决策过程。 6. 文档记录与注释:详细记录模型的开发过程、参数设置、数据处理等步骤,并对模型进行适当的注释,使他人能够理解和复现模型。 7. 透明度与可追溯性:保持模型的透明度,确保模型的构建过程可追溯。记录数据集、模型配置、训练过程等信息,方便复现和审查。 总之,通过选择合适的特征、模型和算法,应用可视化技术,进行严格的模型评估与验证,并加强文档记录与注释,可以提高 机器学习 模型的可 解释性 和可信度。