统计中的假设检验及Python实际应用

统计中的假设检验及Python实际应用

4 年前 · 来自专栏 数据分析学习之路

一旦排除了所有不可能,剩下的不管多么难以置信,一定就是真相……

假设检验,统计学中的重中之重,在实际中有着广泛的应用,其实质是:根据一定假设条件,由样本推断总体的一种方法。

本文将着重介绍假设检验中的t检验,及其在实际中的应用:A/B测试。

本文结构如下:

一、假设检验的一般步骤

二、假设检验报告的一般格式简介

三、单样本t检验:汽车引擎排放标准

四、相关配对t检验:斯特鲁普效应验证

五、独立双样本t检验:A/B测试


一、假设检验的一般步骤

假设检验的一般步骤

step1. 问题是什么?

①根据实际问题,确定出零假设H0和备择假设H1。H0和H1互为相反,非此即彼,不可能同时满足。

②确定检验类型。检验类型包括: 单样本t检验、相关配对t检验、独立双样本t检验

③均值的抽样分布。

当小样本时,即样本容量n<30,假如总体近似服从正态分布,则均值的抽样分布为t分布;

当大样本时,即样本容量n>=30,无论总体为何分布,均值的抽样分布均为正态分布。(中心极限定理)

④确定检验方向。看备择假设H1的描述:

如果H1中包含小于号"<",则为左尾;

如果H1中包含大于号">",则为右尾;

如果H1中包含不等号"≠",则为双尾。


检验类型及检验方向的判定,总结为下表:

检验类型和检验方向


step2. 证据是什么?

有一种说法:假设检验就是个p(不是拍马屁的屁哦)

没错,假设检验最核心的步骤就是计算p值,什么是p值呢?

p值就是: 在零假设H0成立的条件下,出现样本均值的概率是多少

t检验的p值计算过程:

方法一:根据样本均值和标准误,结合抽样分布类型,先计算出检验统计量和自由度,手动查表计算p值;

方法二:使用Python的科学计算包scipy自动计算检验统计量和p值。


step3. 判断标准是什么?

显著性水平α,由人为根据实际情况主观指定,常用的显著性水平α=0.05。


step4. 得出结论

根据检验是单尾还是双尾,用最终的p值与α值做比较:

当p<=α时,拒绝零假设H0,接受备择假设H1;

当p>α时,没有充分的证据拒绝零假设(倾向于接受H0,但需要进一步证据)。


二、假设检验报告的一般格式

2.1 描述统计分析

对样本数据进行描述统计,报告平均值和标准差。

2.2 推论统计分析

(1)报告假设检验结果

采用APA格式,需要报告检验类型、抽样分布类型、检验方向、检验统计量、p值、显著性水平α;

(2)报告置信区间

根据APA格式,需要报告置信区间的类型、置信水平、区间上下限;

(3)报告效应量

效应量代表实际效果是否显著,包含两种度量方法:

①差异度量Cohen's d = (样本均值1-样本均值2)/标准差

②相关度r^2 = t^2/(t^2+df),df是自由度

具体的数据分析报告实例见下文。

三、单样本t检验

Task1:汽车引擎是否满足排放标准?
“Super Engine”是一家专门生产汽车引擎的公司,根据政府发布的新排放要求,引擎排放平均值要低于20ppm。公司制造出10台引擎供测试使用,每一台的排放水平如下:
15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9
问题:公司生产的引擎是否符合政府规定呢?


3.1 描述统计分析:

3.2 推论统计分析

(1)假设检验

问题是什么?

小样本的抽样分布是否满足t分布使用条件(总体近似正态)?因总体未知,此处只能通过样本数据的可视化分布,大致推断总体是否服从单峰的正态分布。

总结:定义了零假设和备择假设,确定了检验类型为单样本t检验中的左尾检验,自由度df=9

证据是什么?

证据就是计算p值(零假设成立的前提下,出现样本均值的概率),此处有两种计算方法。

由于该例属于单尾检验,所以最终的p值需要双尾p值除以2:


判断标准是什么?

常用的显著性水平α=5%


得出结论

单尾p值与显著性水平α作比较:当p<=α时,拒绝零假设H0,接受备择假设H1;当p>α时,没有充分的证据拒绝零假设(倾向于接受H0,但需要进一步证据)。

(2)置信区间

置信区间在不同的置信水平下有不同的“宽度”,此处置信水平为95%。

有两种计算方法:分步计算,合并计算 。

置信区间计算方法二:合并计算

(3)效应量

当假设检验具有统计显著的结论时,需要进一步研究是否具有实际意义,即实验结果是否“效果显著”?衡量效果显著用Cohen's d指标,它表示:样本均值1与样本均值2,差异有几个标准差。差异大小 的衡量标准如下:

Cohen's d差异显著性指标标准


3.3 数据分析报告
根据美国心理学会APA给出的统计推论分析结果报告格式,该案例最终的数据分析报告如下:

四、相关配对t检验

Task2:验证特鲁普效应的存在
斯特鲁普效应是著名的心理学现象,展示了人们对事物的认知过程是一个自动化的历程。当有一个新的刺激出现时,如果它的特征和原先的刺激相似或符合一致,便会加速人们的认知;反之,若新的刺激特征与原先的刺激不相同,则会干扰人们的认知,使人们的反映时间变长。
通过网上的stroop实验做测试人的反应时间 斯特鲁普效应 ,每名参与者得到两组有颜色的文字,第一组数据是字体内容和字体颜色一致,第二组数据是字体内容和字体颜色不一致。每名参与者对每组文字说出文字的颜色,并分别统计完成每组的时间。
问题:验证斯特鲁普效应的存在(不一致组反应时间均值比一致组反应时间均值长)


4.1 描述统计分析


4.2 推论统计分析

(1)假设检验

问题是什么


相关配对检验关心的是两组成对数据的差值,因此需先构造出差值数据:


假设检验中的t检验,需要总体满足近似正态分布的条件,但总体未知,可以从样本数据的核密度图粗略估计:

总结:定义了零假设和备择假设,确定了检验类型为相关配对 t检验中的左尾检验,自由度df=n-1=25


证据是什么?

证据就是计算p值(零假设成立的前提下,出现样本均值的概率)。

判断标准是什么?

常用的显著性水平α=5%


得出结论

单尾p值与显著性水平α作比较:当p<=α时,拒绝零假设H0,接受备择假设H1;当p>α时,没有充分的证据拒绝零假设。

(2)置信区间

自由度df=data.shape[0]-1。

(3)效应量


4.3 数据分析报告


五、独立双样本t检验

Task3:A/B测试
两款键盘布局不一样的手机应用(A版本,B版本),你作为公司的产品经理,想在正式发布产品之前,知道哪个键盘布局对用户体验更好?
随机抽取实验者,将实验者分成2组,每组25人,A组使用键盘布局A,B组使用键盘布局B。让他们在30秒内打出标准的20个单词文字消息,然后记录打错字的数量。
问题:两种版本布局是否用户体验显著不同,哪种更好?


5.1 描述统计分析


5.2 推论统计分析

(1)假设检验

问题是什么?


假设检验中的t检验,需要总体满足近似正态分布的条件,但总体未知,可以从样本数据的核密度图粗略估计:

由两样本数据集的分布情况可粗略估计,其所在的总体也近似服从正态分布,故抽样分布满足t分布使用 条件。

在做独立双样本t检验之前,需要先做方差分析(F检验),判断两总体方差是否显著不同,我们称该操作为: 方差齐性检验 。方差相同情况为“ 等方差 ”,方差不同情况为“ 异方差 ”。两种情况下,计算的检验统计量t值和自由度df会存在差异。


单纯的方差齐性检验也可通过下面3种方法 得到结果:


抑或通过可视化的方法粗略估计:


总结:无论以上哪种方法做方差齐性检验,均得到p值大于显著性水平α的结果,证明两总体等方差a_var = b_var。

总结:定义了零假设和备择假设,确定了检验类型为独立双样本t检验,双尾检验,经方差齐性检验,两总体方差相同,自由度df=n1+n2-2=48


证据是什么?


判断标准是什么?


得出结论


(2)置信区间

通过读取置信区间的数值,区间边界值均为负值,证明A版本打错字数量均值显著小于B版本,即A布局版本更符合用户体验。


(3)效应量

独立双样本的混合标准差sp的计算公式可参考统计书籍《商务与经济统计第12版》275页最下面;样本均值=样本均值1-样本均值2。


5.3 数据分析报告


总结:

本文介绍了统计学的重头戏:假设检验的实现方法,重点介绍t检验

  1. 推论统计分析报告:描述统计+推论统计
  2. 推论统计分析内容:假设检验+置信区间+效应量
  3. 假设检验步骤:①问题是什么;②证据是什么;③判断标准是什么;④得出结论
  4. 确定问题首先根据实际情况,定义互为相反的零假设和备择假设
  5. 根据数据情况,判定属于哪种检验类型,见下图
  6. 判断均值的抽样分布为哪种分布(大样本n>30正态分布;小样本n<30且总体正态,t分布)
  7. 确定检验方向:左尾?右尾?双尾?
  8. 计算零假设成立时,出现样本均值的概率:p值
  9. p值与显著性水平 α作比较,得出统计显著性结论
  10. 计算置信度95%的置信区间
  11. 通过效应量判断效果显著性(有实际意义)
  12. 来自两个独立总体的样本,在t检验之前,先进行方差齐性检验。
检验类型的样本数据集特点

发布于 2018-05-26 14:34

文章被以下专栏收录

    数据分析学习之路

    数据分析学习之路

    数据分析的学习之路
    猴子数据分析

    猴子数据分析

    人人都需要的通用能力数据分析,公号(猴子数据分析)