温馨提示: 文中链接在微信中无法生效。请点击底部

Source: Greenland, S., Senn, S.J., Rothman, K.J. et al. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. Eur J Epidemiol 31, 337–350 (2016).

  • 1. 问题的引入

  • 2. 一些观点

  • 2.1 关于 P 值的定义

  • 2.2 关于 P 值的解读

  • 2.3 P 值和临界值的区别

  • 2.4 置信区间的性质

  • 2.5 统计功效的性质

  • 3. 25个常见误区

  • 3.1 单一P值涉及的常见误区

  • 3.2 P值比较和预测中常见误区

  • 3.3 置信区间涉及的常见误区

  • 3.4 统计功效涉及的常见误区

  • 4. 参考文献和扩展资料

  • 自统计理论发展至今,P 值等统计指标已经被广泛应用于包括生物、心理、经济在内的多个领域,同时有关其含义和地位的争论和质疑也从未停止过。

    Basic and Applied Social Psychology 曾在 2015 年发文全面禁止包括置信区间在内的检验指标。2019 年 3 月,Nature 发表的评论,“Scientists rise up against statistical significance”,再度引起了学术界对P值的思考。

    考虑到假设检验在科学研究中的重要影响,Greenland 等 (2016) 围绕 P 值、置信区间和统计功效这三个指标展开了一系列探讨。现在我们将该文章中的主要观点介绍给大家。

    1. 问题的引入

    作者认为如今的研究在统计模型、假设和检验方面存在以下问题:

    首先,任何统计推断方法都立足于大量前提假设,这些假设涉及数据收集和分析,结果阐明和展示各个过程。然而很多问题的出现正是由于统计模型所包含的假设缺乏真实性或者勉强称为不合理所导致的;

    接着,在确定模型的适用范围时也会出现问题,因为一项研究得到的模型除了能较好地解释已观测到数据外,也应对未观测到但依据模型假设可能存在的其他数据有一个较好的刻画;

    随后,统计模型常常是以高度简洁和抽象的形式展现出来的,因而很多假设就不会引起受众的注意,而这些假设正是统计方法和相关解释的前提&

    解释“ 置信区间 ”的实验 这是Hoekstra等人报告的问卷调查研究的(宽松)复制。 在2014年发表在《心理学公告与评论》上的一篇论文中,标题为“对 置信区间 的严格误解”。 该实验是使用。 在线链接: 脱机:克隆存储库,运行npm install并打开index.html 。 导读:p (P value)就是当 假设 为真时,比所得到的样本观察结果更极端的结果出现的概率,是用来判定 假设 检验 结果的一个参数。p 是根据实际 统计 计算 出的显著性水平。本文带你了解p 和对... “ 置信区间 ”的英文是confidence interval,也译为“可信区间”、“信赖区间”或“信心区间”。“confidence interval”这个术语跟“logit”类似,没有既精确又易懂的译法(translation),我努力提供一个平易的“解释”(interpretation)。 先咬文嚼字。confidence interval由两个词组成,主词是“interval”(区间);“confidence”( 置信 )是对“interval”的“界定”,名词扮演形容词。“ 置信 ”这个译法比较“雅”,但把问 一、 假设 检验 (hypothesis testing)) 我们提出一 假设 ,通过实验 检验 假设 的合理性,就是 假设 检验 假设 检验 理:在一定的 统计 假设 的前提下,如果发生了小概率事件,我们就有理由怀疑 假设 的真实性,从而 拒绝 接受 假设 二、P (p-value)我们一般认为就可以认为 假设 是不正确的。举个例子:一个盒子里装了若干个球,盒子上面写了白球和黑球一样多,但是事实是不是这样呢?我们来做一... 你想证明一班的成绩比二班好:那么 假设 H0 就设为一班二班成绩相同,其中出现的个别成绩有差异,是由于抽样误差所造成的,纯在偶然性,差异数据不具备 统计 学意义,可以忽略该差异的影响备择 假设 H1就设为一班比二班成绩好,其中样本中出现的一班二班成绩差异不是偶然出现的,具有高度 统计 学意义,不可忽悠该差异的影响P:在定义了H0的情况下,代表了由于偶然误差导致的H0不成立的碰巧可能性大小。P小, 拒绝 H0的出错的... Minitab软件是现代质量管理 统计 的领先者,全球六西格玛实施的共同语言,以无可比拟的强大功能和简易的可视化操作深受广大质量学者和 统计 专家的青睐。Minitab 1972年成立于美国的宾夕法尼亚州州立大学(Pennsylvania State University),到目前为止,已经在全球100多个国家... 大数据文摘出品编译:武帅、宁静我们在日常生活中做出决定时,总会在心里提前打个“小算盘“——估算一下概率 P,研究者做某项检测,根据概率 P,得出最终的结果;资本家做投资,根据以往数据的 统计 分布,估算P ,得出最终的决策等等。P 在潜移默化地影响着我们的生活,那么有没有想过我们所依赖的P 到底可靠吗?P 的表面意义是,当 假设 为真时, 检验 统计 量出现某不应该 所需的概率;而其实际意义则是,只需多小的概... 首先解释下“有 统计 学意义”和“显著差异” 两个概念:”有 统计 学意义"和"差异显著"是两个不同的概念,"差异显著"易给人一 误导, 来两概念在 统计 学中经常有点通用,现在明确地只能用“有 统计 学意义”。P< 0.05 是指 假设 H0(即两总体没区别)成立的可能性概率在5%以下,a就是允许犯Ⅰ类错误( 拒绝 了正确的无效 假设 H0)的概率,一般在做 假设 检验 之前先定好,如果a= 0.05 ,表示允许犯Ⅰ类错误的概率为... 2019年5月6日,在NEJM(新英格兰医学杂志)医学前沿微信号中,刊登一篇名叫《用了这么多年的P ,到底是什么意思?》的文章。虽然简短,但它把P 讲得非常透彻,只要仔细阅读,就会对 统计 学意义(statistical significance),这个耳熟能详的概念,引发思考。大家在做课题、写论文的时候,经常会用到P ,当然也会自然想到 0.05 和0.01,这两个让人又爱又恨的数 。很多科研... 喜欢文章?不如来点赞关注吧分步计划比较以下两 期望。一,你期望超过半数的持证美国潜水者有超过 35 小时的潜水经验。二,所有持证美国潜水者的平均潜水时长超过 35 小时。第一眼,两个期望看起来很相似。但是,在第一个例子中,你面对的是比例,你感兴趣的是潜水经验超过 35 小时的潜水者的比例。而第二个例子中,你关心的是均 。你想知道潜水时长的均 。因此,当实施显著性 检验 时,你需要特别注意你的方法。这一... 标准方法,无论是转换的还是未转换的,通常比调整后的方法产生更大的估计。公式中的interval是 置信区间 的半径,error和accuracy是分类误差和分类准确率,n是样本大小,sqrt是平方根函数,z是高斯分布的临界 。下面的例子在 假设 的情况下演示了这个函数,其中一个模型从100个实例的数据集中做出88个正确的预测,并且我们对95%的 置信区间 (作为 0.05 的显著性供给函数)感兴趣。例如, 置信区间 可以用来呈现分类模型的性能,可以这样描述:给定样本,范围x到y覆盖真实模型精度的可能性为95%。 P :在 假设 成立的情况下,得到样本观察结果或更极端的观察结果出现的概率,从而P 为否定H0的最低显著性水平 分为2部分理解:在 假设 成立的情况下,得到样本观察结果或更极端的观察结果出现的概率为否定的最低显著性水平先对1解释,看下面例题:以该题为例,第一个理解的核心是注重的是观察结果。这里观察结果是 =4.3,我们要知道的是它在 假设 成立条件下是不是合理的。重点理解以下几个问题:得出来的图形是什... 上一篇的分析是基于无限总体的抽样,但实际环境中可能存在大量有限总体的抽样,如来料 检验 ,每个批次的来料都是有限的,实际抽样根据GB/T2828(计数型)或GB/T6378(计量型)的要求实施,但很多情况下,这个要求很难达到。 本文主要针对有限总体进行仿真实验,看看不同的样本量表现如何。实验设计仍以单样本单侧 检验 为例做实验,先生成10000个均 为10,标准差为0.2的正态分布... 假设 现在测量了12个小鼠体重的 ,注意这里只测量了12只小鼠(样本),而不是地球上的每一只小鼠(总体) 取12个测量 计算 平均 ,注意这里是样本均 ,而不是总体均 (地球上所有小鼠的均 ) 理解样本均 与总体均 :https://zhenglei.blog.csdn.net/article/details/108392410 但是,我们可以通过 Bootstrap 方法,确定一个比较合理的均 范围来代表小鼠总体均 随机选12个小鼠体重 Boostrap 是可放回抽样,意味着抽样时可 [文章于2019年11月16日发表于公众号*荷兰高等心理 统计 联盟*,欢迎关注联盟,汲取心理学管理学研究方法学新视角]I. What is p-value & why is it problematic?P 的定义是“Given that the null hypothesis of no effect is true, the probability of events as, or mo...