+关注继续查看

回归模型 评估的两个方面


回归模型的评估主要有以下两个方面:


1. 预测值的拟合程度


拟合程度就是我们的预测值是否拟合了足够的信息。在回归模型中,我们经常使用决定系数R2来进行度量。


2. 预测值的准确度


准确度指预测值与实际真实值之间的差异大小。常用均方误差(Mean Squared Error, MSE),平均绝对误差(Mean Absolute Error, MAE),平均绝对百分比误差MAPE来度量。



下面我们对这几个评估指标进行介绍,以及其在 sklearn 中如何使用。


以糖尿病数据集的回归模型为计算示例-计算各指标



1. 决定系数R2


R2( Coefficient of determination):决定系数,反映的是模型的拟合程度, R2的范围是0到1。其值越接近1,表明方程的变量对y的解释能力越强,这个模型对数据拟合的也较好。

10c788ffa5a241dbaeb81478b5cb4f61.png


1.1 R2求解方式一----从metrics调用r2_socre




1.2 R2求解方式二----从模型调用score




1.3 R2求解方式二----交叉验证调用scoring=r2



2. 校准决定系数Adjusted-R2


校正决定系数是指决定系数R可以用来评价回归方程的优劣,但随着自变量个数的增加,R2将不断增大。Adjusted-R2主要目的是为了抵消样本数量对R2的影响。

209adb8497964433a08aec3cb5ecd357.png

其中,n为样本数量,p为特征数量。即样本为n个[ x1, x2, x3, … , xp, y ]。取值也是越接近1越好。



3.均方误差MSE(Mean Square Error)


均方误差(Mean Square Error, MSE):是真实值与预测值的差值的平方,然后求和的平均,一般用来检测模型的预测值和真实值之间的偏差

344a8f5663fc43db90f3cbb40a285ce7.png


4.均方根误差RMSE(Root Mean Square Error)


均方根误差(Root Mean Square Error, RMSE):即均方误差开根号,方均根偏移代表预测的值和观察到的值之差的样本标准差

cc043afefea94be389210c6495c6dd08.png



5.平均绝对误差MAE(Mean Absolute Error)


平均绝对误差(Mean Absolute Error, MAE):是绝对误差的平均值,可以更好地反映预测值误差的实际情况

029b066682c341419951b6e6380da805.png


6. 平均绝对百分比误差MAPE(Mean Absolute Percentage Error)


平均绝对百分比误差(Mean Absolute Percentage Error,MAPE):是相对误差度量值,它使用绝对值来避免正误差和负误差相互抵消,可以使用相对误差来比较各种时间序列模型预测的准确性。理论上,MAPE 的值越小,说明预测模型拟合效果越好,具有更好的精确度。


在这里插入图片描述


0.4062288709549193
                【阿旭机器学习实战】【21】通过SVM分类与回归实战案例,对比支持向量机(SVM)3种SVM不同核函数
            
【阿旭机器学习实战】【21】通过SVM分类与回归实战案例,对比支持向量机(SVM)3种SVM不同核函数
全网最快入门———R语言机器学习实战篇7《logistic回归》
R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
PySpark数据分析基础:pyspark.mllib.regression机器学习回归核心类详解(二)+代码详解
PySpark数据分析基础:pyspark.mllib.regression机器学习回归核心类详解(二)+代码详解
PySpark数据分析基础:pyspark.mllib.regression机器学习回归核心类详解(一)+代码详解
PySpark数据分析基础:pyspark.mllib.regression机器学习回归核心类详解(一)+代码详解
ML之ME/LF:机器学习中回归预测模型评估指标之“调整确定系数R2”的简介、代码实现之详细攻略
ML之ME/LF:机器学习中回归预测模型评估指标之“调整确定系数R2”的简介、代码实现之详细攻略
机器学习系列(10)_决策树与随机森林回归(下)
优点:易于理解;数据的预处理工作可以较少;使用树的成本比如预测数据的时候,对于训练树的数据点往往使用的是数量的对数;能够同时处理数值和分类数据‘处理多输出的问题;属于易于理解的白盒模型;可通过统计测试试验模型;