方差,标准差,均方误差,极差
一、方差
(1)百度百科上方差是这样定义的:
方差(variance): 是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。
(2)方差在统计描述和概率分布中各有不同的定义,并有不同的公式。
- 在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异(离散)程度。
- 总体方差计算公式: \sigma^{2}=\frac{\sum_{}^{}{\left( X-\mu \right)}^{2}}{N}
\sigma^{2} 为总体方差,X为变量, \mu 为总体均值,N为总体例数;
- 实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式: S^{2}=\frac{\sum_{}^{}{\left( X-\bar{X} \right)}^{2}}{\left( n-1 \right)}
S^{2} 为样本方差,X为变量, \bar{X} 为样本均值,n为样本例数;
思考:为什么要求差的平方?可以参考这个链接里面的注解
( https://www. shuxuele.com/data/stand ard-deviation.html )
二、标准差
(1)方差和标准差的关系很简单,标准差(也称均方差)的平方就是方差。
- 标准差能反映一个数据集的 离散程度 (或理解为数据集的波动大小)。
- 既然都能反映数据集的离散程度,既生瑜何生亮?因为我们发现,方差与我们要处理的数据的量纲是不一致的(单位不一致),虽然能很好的描述数据与均值的偏离程度,但是处理结果是不符合我们的直观思维的。
- 比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是100cm^2。可以简便的描述为本班男生身高分布在170±10cm,方差就无法做到这点。
(2)标准差的应用
- 基金
衡量基金波动程度的工具就是标准差(StandardDeviation)。标准差是指基金可能的变动程度。标准差越大,基金未来净值可能变动的程度就越大,稳定度就越小,风险就越高。
- 股市分析
股票价格的波动是股票市场风险的表现,因此股票市场风险分析就是对股票市场价格波动进行分析。波动性代表了未来价格取值的不确定性,这种不确定性一般用方差或标准差来刻画。
- 企业债券
企业债务性资金和权益性资金完全正相关,即相关系数pDE为1。
- 衡量球员发挥水平的稳定性
一支值得信赖的球员队伍,他最不想要的就是表现时好时坏,水平反复无常,波动很大的队员。他需要的是评分高且发挥稳定的球员。
三、均方误差
- 均方误差 是各数据偏离 真实值 的距离平方和的平均数,也即误差平方和的平均数,计算公式形式上接近方差,它的开方叫 均方根误差 ,均方根误差和标准差形式上接近。均方误差是各数据偏离 真实值 的距离平方和的平均数 。
这里有个例子:我们要测量房间里的温度,很遗憾我们的温度计精度不高,所以就需要测量5次,得到一组数据 [x1,x2,x3,x4,x5],假设温度的真实值是x,数据与真实值的误差e=x-xi
均方误差计算公式: MSE=\frac{\sum_{}^{}{\left( x-x_{i} \right)}^{2}}{n}
那么均方根误差计算公式为: \sqrt{\frac{\sum_{}^{}{\left( x-x_{i} \right)}^{2}}{n}}
总的来说,均方差是数据序列与均值的关系,而均方误差是数据序列与真实值之间的关系。
四、极差
- 百度百科的解释: 极差 又称范围误差或 全距 (Range),以R表示,是用来表示统计资料中的 变异量数 (measures of variation),其 最大值 与最小值之间的 差距 ,即最大值减最小值后所得之数据。
例:求下列数据集的极差
65、81、73、85、94、79、67、83、82
解:极差指的是这些数字分开得有多远,计算方法是:用其中最大的数减去最小的数。
极差是: 94−65=29
这个数字越大,表示分得越开,最大数和最小数之间的差就越大;该数越小,数字间就越紧密,这就是极差的概念。
生活中很多概念很久之前就知道了,但是细想起来还是不够理解,今天先总结到这吧。大家还有什么更深的理解,欢迎留言探讨~❤️