骑白马的小蝌蚪 · 数据湖构建—如何构建湖上统一的数据权限-阿里 ...· 7 月前 · |
腹黑的柳树 · PyQt5美化界面 - 简书· 10 月前 · |
冷静的山羊 · Linux安装sdkman - 明月, - 博客园· 1 年前 · |
在生存分析研究中,对于某些实例,会出现在我们的研究期间,并没有出现任何感兴趣的时间,我们将这种情况称之为删失(censored)。
出现这种情况的可能原因有:
1)
实例在研究阶段就是没有出现感兴趣的事件(right-censored)
2)在研究阶段,丢失了该实例
3)该实例经历了其他的事件导致无法继续跟踪
生存概率也叫作生存方程 r n 时应该将该患者剔除出去
在利用KM方法得到多条生存曲线后,只通过直接的观察来确定多条曲线之间是否具有显著性差异是不充分的。因此,log-rank test被广泛的用来比较两条或多条生存曲线。
1)log-rank test是一种非参数检验,因此对于生存概率的分布没有任何假设;
2)同时,log-rank test 的null hypothesis(原假设)为两个曲线代表的两个组之间,在生存率上没有显著性差异。
3)log-rank test比较的是每个组中观察到的事件数,与在原假设为真的情况下,每个组期望的事件数。
4)log-rank test统计量类似于卡方检验(Chi-square test)的统计量
风险概率指的是在时间 h ( t ) = δ ( t ) → 0 lim δ ( t ) P r ( t ≤ T ≤ t + δ ( t ) ∣ T ≥ t )
在针对单因子进行生存分析时,我们已经得到了生存方程
上述生存分析模型,即Kaplan-Meier survival estimate,是 单变量分析(univariable analysis) ,在做单变量分析时,模型只描述了该单变量和生存之间的关系而忽略其他变量的影响。(为什么要考虑multi-variables?比如在比较两组病人拥有和不拥有某种基因型对生存率的影响,但是其中一组的患者年龄较大,所以生存率可能受到基因型 或/和 年龄的共同影响)
同时,Kaplan-Meier方法只能针对分类变量(治疗A vs 治疗B,男 vs 女),不能分析连续变量对生存造成的影响。
为了解决上述两种问题,Cox比例风险回归模型(Cox proportional hazards regression model)就被提了出来。
该公式的意思为,需要将所有出现过感兴趣事件的实例的概率相乘,即 M 1 i : δ i = 1 ∑ j : T i < T j ∑ I [ S ( T i , X i ) < S ( T j , X j ) ]
其中,函数 T j 必须长于第一个实例事件发生时间;两个求和函数选择出了能够用于比较的所有配对组合。
为了得到更加robust的评估结果,希望通过多次重复采样的方法来计算多组评估结果,从而得到更为有说服力的结果。
1)从原始样本中允许重复抽取的抽取一定数量的样本
2)根据抽取得到的新样本,计算统计量
生存分析(Survival Analysis)、Cox风险比例回归模型(Cox proportional hazards model)及C-index1. 生存分析生存分析指的是一系列用来探究所感兴趣的事件的发生的时间的统计方法。常见的有1)癌症患者生存时间分析2)工程中的失败时间分析等等。1.1 定义给定一个实例 iii,我们用一个三元组来表示 (Xi,δi,Ti)(X_i, \del...