image.png
Z值(z-score,z-values, normal score)又称标准分数(standard score, standardized variable),是一个实测值与平均数的差再除以标准差的过程。Z score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z score分值进行比较。
用公式表示为:
z=(x-μ)/σ
x为某实测值,μ为平均数,σ为标准差
Z值的量代表着实测值和总体平均值之间的距离,是以标准差为单位计算。
大于平均数的实测值会得到一个正数的Z值,小于平均数的实测值会得到一个负数的Z值。
Z score通过(x-μ)/σ将两组或多组数据转化为无单位的Z score分值,使得数据标准统一化,提高了数据可比性,削弱了数据解释性。
2.Z score的定义
Z score处理方法处于整个框架中的数据准备阶段。也就是说,它是数据预处理阶段中的重要步骤。
数据分析与挖掘中,很多方法需要样本符合一定的标准,如果需要分析的诸多自变量不是同一个量级,就会给分析工作造成困难,甚至影响后期建模的精准度。
举例来说,假设我们要比较A与B的考试成绩,A的考卷满分是100分(及格60分),B的考卷满分是700分(及格420分)。很显然,A考出的70分与B考出的70分代表着完全不同的意义。但是从数值来讲,A与B在数据表中都是用数字70代表各自的成绩。
那么如何能够用一个同等的标准来比较A与B的成绩呢?Z-Score就可以解决这一问题。
下图描述了Z-Score的定义以及各种特征。
3.Z-score的目的
如上图所示,Z-score的主要目的就是将不同量级的数据统一转化为同一个量级,统一用计算出的Z-score值衡量,以保证数据之间的可比性。Z值可以告诉我们整个数据相对于总体平均值的位置。Z 分数越高或越低,结果就越不可能偶然发生,结果就越有可能有意义。
4.Z-score的理解与计算
在对数据进行Z-score标准化之前,我们需要得到如下信息:
1)总体数据的均值(μ)
在上面的例子中,总体可以是整个班级的平均分,也可以是全市、全国的平均分。
2)总体数据的标准差(σ)
这个总体要与1)中的总体在同一个量级。
3)个体的观测值(x)
在上面的例子中,即A与B各自的成绩。
通过将以上三个值代入Z-score的公式,即:
我们就能够将不同的数据转换到相同的量级上,实现标准化。
重新回到前面的例子,假设:A班级的平均分是80,标准差是10,A考了90分;B班的平均分是400,标准差是100,B考了600分。
通过上面的公式,我们可以计算得出,A的Z-score是1((90-80)/10),B的Z-score是2((600-400)/100)。因此B的成绩更为优异。
反之,若A考了60分,B考了300分,A的Z-Score是-2,B的Z-Score是-1。因此A的成绩更差。
因此,可以看出来,通过Z-score可以有效的把数据转换为统一的标准,但是需要注意,并进行比较。Z-score本身没有实际意义,它的现实意义需要在比较中得以实现,这也是Z-score的缺点之一。
5.Z-score的优缺点
Z-score最大的优点就是简单,容易计算,很多工具中,比如R,不需要加载包,仅仅凭借最简单的数学公式就能够计算出Z-score并进行比较。此外,Z-score能够应用于数值型的数据,并且不受数据量级的影响,因为它本身的作用就是消除量级给分析带来的不便。
但是Z-score应用也有风险。首先,估算Z-score需要总体的平均值与方差,但是这一值在真实的分析与挖掘中很难得到,大多数情况下是用样本的均值与标准差替代。其次,Z-score对于数据的分布有一定的要求,正态分布是最有利于Z-score计算的。最后,Z-score消除了数据具有的实际意义,A的Z-score与B的Z-score与他们各自的分数不再有关系,因此Z-score的结果只能用于比较数据间的结果,数据的真实意义还需要还原原值。
6.Z-score的应用实例
假设国家女排队员身高平均值1.94米,标准差0.2(标准差代表了不同队员身高值的差异程度,又称为变异度)。某天,有一位身高1.2米的女子提出想申请加入国家队,我们如何衡量这名女子与国家女排队员的身高差异程度呢?
第一,这名女子的身高离女排队的平均身高相差有多远?
实测值-平均值=1.2-1.94=-0.74(米)
第二,上述差值(-0.74米)是一个数值,在国家队中这个差别是什么概念,能否量化?我们已知国家女排队员身高的差异程度是标准差,那如果我们计算出上述差值是标准差的多少倍,就可以用来表达这个差值的变异程度。
实测值-平均值/标准差=-0.74/0.2=-3.7(倍)
这里的-3.7就是Z值。同理,一名身高2.6米的女子申请加入国家女排队,她的身高Z值为3.3。
为什么大多数指标均要求正常Z值区间为[-3,3]呢?这是一个纯统计学问题,大家记住即可:
Z值落在区间[-3,3],我们所测值在总群体的发生概率为99.7%,超出这个区间的概率为0.3%。
所以,上面例子中1.2米和2.6米身高的两名女子出现在国排队的概率均小于0.3%,均不满足身高要求。事实上,国家女子排队的身高Z值区间标准可能更小,如[-0.5,0.5]。