上图是 单纯放疗组的乳腺癌研究。左图:用R包Icens获得的累积分布函数的NPMLE。右图:生存函数的NPMLE,附加了用R包icensBKL获得的分段线性生存曲线的假设。
区间删失数据下,生存函数S(t)的非参数最大似然估计(NPMLE),也称为Turnbull生存函数S(t)的估计量。
与Kaplan-Meier估计量相反,区间删失数据生存函数S(t)的NPMLE一般没有显示解,必须通过迭代算法获得。一个例外是case I 的区间删失数据(当前状态数据)的分析解是可用的(Robertson等人,1988),但是没有被任何SAS或R程序使用。
代码的一部分: 安装相应的包
install.packages("BiocManager")
BiocManager::install("Icens")
install.packages("devtools")
library(devtools)
install_github("cran/icensBKL")
library(icensBKL)
代码第二部分:绘制生存函数图
#数据准备
data("breastCancer", package="icensBKL")
breastR <- subset(breastCancer, treat=="radio only",
select <- c("low", "upp"))
breastR[is.na(breastR[,"upp"]), "upp"] <- 99
breastR[is.na(breastR[,"low"]), "low"] <- 0
#绘制区间删失数据的分布函数
NPMLE <- EMICM(breastR)
print(NPMLE)
plot(NPMLE, ylab=expression(hat(F)(t)), main="")
#绘制区间删失数据的生存函数
NPMLE2 <- icsurv2cdf(NPMLE)
print(NPMLE2[1:5,])
plot(NPMLE2$time, 1-NPMLE2$cdf, type="l",
xlab="Time", ylab=expression(hat(S)(t)), xlim=c(0, 53))
lines(c(48, 53), c(0, 0))
breastR是一个两列的data.frame,表示每个个体区间删失的左右端点。
使用EMICM(EM-iterative convex minorant algorithm)计算非参数极大似然估计(NPMLE)
关于EMICM函数的介绍如下:
网址:
Icens: NPMLE for Censored and Truncated Data (bioconductor.org)
使用icensBKL包中的icsurv2cdf函数,将对象NPMLE(icsurv类)转换成数据框NPMLE2.
书:survival analysis with interval-censored data: a practical approach with exomples in R, SAS, and BUGS.
与Kaplan-Meier估计量相反,区间删失数据生存函数S(t)的NPMLE一般没有显示解,必须通过迭代算法获得。一个例外是case I 的区间删失数据(当前状态数据)的分析解是可用的(Robertson等人,1988),但是没有被任何SAS或R程序使用。右图:生存函数的NPMLE,附加了用R包icensBKL获得的分段线性生存曲线的假设。区间删失数据下,生存函数S(t)的非参数最大似然估计(NPMLE),也称为Turnbull生存函数S(t)的估计量。代码的一部分: 安装相应的包。
生存
分析用于研究被观察对象会在何时发生某个事件的问题,例如银行业务的预测、保险及零售行业客户下次购买时间等的预测。其结果变量是一个时间点到任何感兴趣事件发生的时间。另外还有风险函数。删除
数据
包括左
删失
、右
删失
、
区间
删失
,用以确定时间范围。
生存
分析方法使用survival包,survminer包
中
的ggsurvplot()函数用于
绘制
生存
曲线
。Kaplan-Meier方法适用于
数据
量比较小的,Surv()函数用来创建
生存
对象,time\event为其两个参数。
通过survminer包
中
的ggsurvpl
生存
描述-描述不同时间的总体
生存
率,计算
中
位
生存
时间,
绘制
生存
函数
曲线
,一般用Kaplan-Meier方法和寿命表法;
生存
曲线
比较-比较不同处理组的
生存
率,一般用logrank检验;
生存
相关因素的分析:回归模型;由于logrank检验仅能分析一个因素,因此两个或者两个以上因素的分析需要使用Cox比例风险模型;
2、
生存
分析使用的方法:
Kaplan-Meier plots
Bootstrap
区间
是指通过Bootstrap重采样方法,通过对原始样本进行有放回抽样,生成多个新的样本集,然后通过统计分析这些新样本集的结果,得到参数的分布情况,并进一步计算置信
区间
。Bootstrap方法可以用来估计参数的置信
区间
,即参数的估计值的不确定性范围。
通过Bootstrap方法,可以通过以下步骤计算置信
区间
:
1. 从原始样本
中
有放回地抽取一个样本,形成一个新的样本集。
2. 根据新的样本集计算所需的统计量,比如均值或
中
位数。
3. 重复进行步骤1和步骤2,生成多个新的样本集,并计算相应的统计量。
4. 根据生成的统计量的分布情况,计算置信
区间
,一般常用百分位法来计算置信
区间
的下限和上限。
通过Bootstrap重采样方法,可以更好地估计样本的参数,同时考虑了样本的不确定性,进而提供了参数的置信
区间
估计。 Bootstrap方法在统计学和机器学习领域有广泛的应用,可以用于估计各种统计量的置信
区间
,进一步进行参数估计和假设检验。 在实际应用
中
,Bootstrap方法可以帮助我们更好地理解样本
数据
的分布情况,从而更准确地进行
数据
分析和决策。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* *3* [Bootstrap重采样进行参数估计 - 置信
区间
](https://blog.csdn.net/qq_33934427/article/details/124030782)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"]
[ .reference_list ]