相关性是协方差的标准化格式。协方差本身很难做比较。
例如:如果我们计算工资和年龄的协方差,因为这两个变量有不同的度量,所以我们会得到不能做比较的不同的协方差。
在这里插入图片描述
或写成: 在这里插入图片描述
该公式可以有如下理解:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(其实是求“期望”,但就不引申太多新概念了,简单认为就是求均值了)。
注:
1.协方差可以反应两个变量的协同关系, 变化趋势是否一致。同向还是方向变化。
2.X变大,同时Y也变大,说明两个变量是同向变化的,这时协方差就是正的。
3.X变大,同时Y变小,说明两个变量是反向变化的,这时协方差就是负的。
4.从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然。

那如果X,Y同向变化,但X大于均值,Y小于均值,那X-ux与Y-uy的乘积为负值啊?这不是矛盾了吗?
这种情况是有可能出现的,但是,总体看,这两个变量的协方差仍然是正的,因为你还要计算t2,t3.……t7时刻X-ux与Y-uy的乘积,然后再把这7个时刻的乘积求和做均值,才是最后X,Y的协方差。1个负、6个正,显然最后协方差很大可能性是正的。
另外,如果你还钻牛角尖,说如果t1,t2,t3……t7时刻X,Y都在增大,而且X大多都比均值大,Y大多都比均值小,这种情况协方差不就是负的了?多个负值求平均肯定是负值啊?但是X,Y都是增大的,都是同向变化的,这不就矛盾了?
这个更好解释了:这种情况不可能出现!
因为,你的均值算错了……X,Y的值应该均匀的分布在均值两侧才对,不可能都比均值大,或都比均值小。

所以,为了协方差这个问题,我们计算相关性来得到一个介于-1和1之间的值,就可以忽略它们各自不同的度量。

就是用X、Y的协方差除以X的标准差和Y的标准差。
在这里插入图片描述
将这些元素打乱,并不会影响相关的结果。所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。
既然是一种特殊的协方差,那它:
1、也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。
2、由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。

那么为什么要通过除以标准差的方式来剔除变化幅度的影响呢?咱们简单从标准差公式看一下: 在这里插入图片描述
每一时刻变量值与变量均值之差再平方,求得一个数值,再将每一时刻这个数值相加后求平均,再开方。所以标准差描述了变量在整体变化过程中偏离均值的幅度。协方差除以标准差,也就是把协方差中变量变化幅度对协方差的影响剔除掉,这样协方差也就标准化了,它反应的就是两个变量每单位变化时的情况。这也就是相关系数的公式含义了。
同时,你可以反过来想象一下:既然相关系数是协方差除以标准差,那么,当X或Y的波动幅度变大的时候,它们的协方差会变大,标准差也会变大,这样相关系数的分子分母都变大,其实变大的趋势会被抵消掉,变小时也亦然。于是,很明显的,相关系数不像协方差一样可以在正无穷到负无穷间变化,它只能在+1到-1之间变化(相关系数的取值范围在+1到-1之间变化可以通过施瓦茨不等式来证明,有些复杂,这里就不熬述了,有兴趣的可以google下)。

如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高。

协方差:相关性是协方差的标准化格式。协方差本身很难做比较。例如:如果我们计算工资和年龄的协方差,因为这两个变量有不同的度量,所以我们会得到不能做比较的不同的协方差。或写成:该公式可以有如下理解:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(其实是求“期望”,但就不引申太多新概念了,简单认为就是求均值了)。注:... import stats from '@hugov/stats' const data = { a : [ 1 , 2 , 3 ] , b : [ 0 , 1 , 2 ] } , info = stats ( data ) , ave_ = info . ave ( ) , // { a:2, b:1 } aveA = info . ave ( 'a' ) , // 2 dev_ = info . dev ( ) , // { a:1, b:1 } devA = info . dev ( 'a' ) , // 1 var_ = info . var ( ) , // { 是一个用于计算样本统计信息(均值,方差, 协方差 相关性 )的高效计算方法的C ++ 17库。 该实现基于Vector Class Library [1]提供的SIMD抽象层。 它使用数据并行的Youngs和Cramer [2]算法对和和平方和进行数值稳定的计算。 独立数据分区的结果与Schubert和Gertz的方法相结合[3]。 根据GNU科学图书馆[4]的统计方法对方法进行了验证。 要使用此库,您只需要复制项目内include文件夹的内容,然后复制#include <vstat> 。 在包含之前定义VSTAT_NAMESPACE将允许您为库设置自定义名称空间。 提供了两种方便的批处理数据方法: univariate::accumulate单变量统计量(均值,方差,标准差) bivariate::accumulate用于双变 如下图所示,如果 协方差 大于零,说明两个随机变量是正相关,如果 协方差 小于零,说明两个随机变量是负相关。如果两个随机变量没有强的 相关性 ,那 协方差 接近零。如果两个随机变量存在很强的 相关性 协方差 也有可能接近零。 如下图所示,如果随机变量X和Y 协方差 很大,那这两个随机变量一定会存在很强的 相关性 吗? 计算 协方差 的另一种形式 如果两个变量是独立的,那 协方差 为零,如果 协方差 为零 如公式所示,如果有X,Y两个变量,每个时刻,X值与其均值()之差乘Y值预期均值之差得到的值加和,再求均值(公式为:)。 若X变大,Y也变大,两个变量的变化是同向的, 协方差 为正值。 若X变大,Y变小,两个变量变化是反向的, 协方差 为负值。 协方差 越大,两个变量之间的同向程度就越大。 2、作用:衡量两个随机变量之间的相互关系 二、... 协方差 : 公式:Cov(X,Y)=E[(X−μx)(Y−μy)]Cov(X,Y) = E[(X-\mu_x)(Y-\mu_y)]Cov(X,Y)=E[(X−μx​)(Y−μy​)] 协方差 表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的 协方差 就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变 协方差 的计算公式暗示, 协方差 本身并不能告诉我们 相关性 直线的斜率(陡峭或平坦),也不能告诉我们样本是否靠近 相关性 直线,它仅仅告诉我们两变量之间的 相关性 直线的斜率是正还是负 协方差 本身的意义难以诠释,故我们不会以计算 协方差 为目标 可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何? 你变大,同时我也变大,说明两个变量是同向变化的,这时 协方差 就是正的。 你变大,同时我变小,说明两个变量是反向变化的,这时 协方差 就是负的。 从数值来看, 协方差 的数值越大,两个变量同向程度也就越大。反之亦然。 咱们从公式出发来理解一下: 公式简单翻译一下是:如果有X,Y两个变量, 可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何? 你变大,同时我也变大,说明两个变量是同向变化的,这时 协方差 就是正的。 你变大,同时我变小,说明两个变量是反向变化的,这时 协方差 就是负的。 从数值来看, 协方差 的数值越大,两个变量同向程度也就越大。反之亦然。 咱们从公式出发来理解一下: 公式简单翻译一下是:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(其实是求“期望”,但就不引申
区别 :方差分析目的是检验因素是否对总体起作用,方法是不同的分组施加不同的因素水平,然后看组间差距是否明显大于组内差距,若明显大于则认为因素对总体起作用。具体过程中,方差分析只读取因变量数据,而不读取自变量数值。 相关分析是检验变量之间是否有依存关系,是想表达当一个变量变化时另一个变量是否有协同变化以及协同变化的程度。 联系 :两者都表示是否有关系。但方差分析表达的意义在于是否“显著”,而相关关系表达...