R语言机器学习与临床预测模型24--C-statistics&C-index

本内容为【科研私家菜】R语言机器学习与临床预测模型系列课程

R小盐准备介绍R语言机器学习与预测模型的学习笔记

你想要的R语言学习资料都在这里, 快来收藏关注【科研私家菜】

01 C-statistics&C-index计算

C-statistics即为C统计量是ROC曲线下面积。如果这个logistic回归用于预测或诊断,roc曲线下面积可以估计用logistic回归模型进行诊断或预测的能力。
Logistic回归模型根据预测概率绘制ROC曲线,其曲线下面积AUC = C-Statistics
C-index,即一致性指数(index of concordance),通过评估模型预测结果与实际观察结果的符合程度,以评价模型的预测准确性。
所谓一致性,就是把研究对象随机地两两组对,对于一对病人,如果A实际生存时间长于B,且模型预测的A的生存时间也长于B,则称之为预测结果与实际结果一致。
C-index本质是计算预测结果与实际结果一致的情况所占的比例,类似于ROC曲线下面积AUC。理论上,C-index取值范围是[0.5-1],若预测与实际完全不一致,则C-index = 0.5,也即模型并无比随机好,没啥实际效用。若模型预测结果与实际结果完全一致,则C-index = 1。
Cox回归中的C-Statistics 一般称为C-index。

#C-statistics计算
library(foreign) 
library(rms)
mydata<-read.spss("lweight.sav")
mydata<-as.data.frame(mydata)
head(mydata)
mydata$low <- ifelse(mydata$low =="低出生体重",1,0)
mydata$race1 <- ifelse(mydata$race =="白种人",1,0)
mydata$race2 <- ifelse(mydata$race =="黑种人",1,0)
mydata$race3 <- ifelse(mydata$race =="其他种族",1,0)
attach(mydata)
dd<-datadist(mydata)
options(datadist='dd')
fit1<-lrm(low~age+ftv+ht+lwt+ptl+smoke+ui+race1+race2,data=mydata,x=T,y=T)
fit1 #直接读取模型中Rank Discrim.参数 C
mydata$predvalue<-predict(fit1)
library(ROCR)
pred <- prediction(mydata$predvalue, mydata$low)
perf<- performance(pred,"tpr","fpr")
plot(perf)
abline(0,1)
auc <- performance(pred,"auc")
auc #auc即是C-statistics
somers2(mydata$predvalue, mydata$low) #somers2 {Hmisc}
  se <- x["S.D."]/sqrt(x["n"])
  Low95 <- x["C Index"] - 1.96*se 
  Upper95 <- x["C Index"] + 1.96*se 
  cbind(x["C Index"], Low95, Upper95) 
cindex <- rcorr.cens(data$prediction,data$event)
cindex
print(CstatisticCI(cindex))
# 该方法可以获得Dxy,但是这个跟cox直接出来的Cindex相比要少,是因为Dxy的原因吗?
# COX的计算
# 根据survival包,可以计算Dxy
# 把-值去掉, |Dxy|/2+0.5

02 模型比较方法

似然比检验
  # 方法1
  # model1 vs model2 (直接使用model名称即可)
  anova(model1,model2) 
  # 方法2
  library(rms)
all.X <-data.frame(x.T=data.T, x.N=data.N, x.S=data.S, x.G=data.G, x.V=data.V, x.P=data.P, x.CEA2=data.CEA2, x.CA1992=data.CA1992)
TN.model <- cph(Surv(survival.time,survival.status)~ x.T+x.N, 
                data=all.X, na.action=na.omit )
TNC.model <- cph(Surv(survival.time,survival.status)~ x.T+x.N+x.CEA2, 
                 data=all.X, na.action=na.omit )
TN2TNC <- lrtest(TN.model, TNC.model)
  # 本质上就是对LIKEHOOD进行卡方检验
  # 经过检验发现,这两者的结果是一致的,均可采用。
基于survcomp包计算c.index
library("survival")
library("prodlim")
library("survcomp")
C_index1 <- concordance.index(x=data$model1_prediction, surv.time=data$time, surv.event=data$event,method="noether")
# 往上翻可以直接查看到C_index以及置信区间
C_index1
C_index2 <- concordance.index(x=data$model2_prediction, surv.time=data$time, surv.event=data$event, method="noether")
C_index2
cindex.comp(C_index1, C_index2)

compareC包

nricens包