R绘图| Kaplan-Meier曲线及美化_木舟笔记的博客

相关文章推荐
强悍的苹果 · 从*.FBX文件读取和显示动画-腾讯云开发者 ...· 1 年前 ·
憨厚的鼠标垫 · Python：访问数据库MySQL_厦大数据 ...· 2 年前 ·
开心的地瓜 · unsupported GNU ...· 2 年前 ·
踏实的水煮鱼 · Unix : 查找和替换连续的逗号至连续的管道· 2 年前 ·
淡定的弓箭 · 如何从Hive/Impala中的字符串列中删 ...· 2 年前 ·
本期R包：survival和survminer，survival建立生存函数，survminer内置ggplot2，ggpubrg等包，美化曲线。
一行代码配一个图，逐步讲解代码含义。
喜欢的小伙伴记得关注、点赞加转发，分享给更多的人。
公众号回复 20210201 获取本期代码和数据。
或在本公众号后台回复 KM 。
一、人群总体生存的KM曲线
二、某个变量的KM曲线
三、KM曲线美颜
累计死亡曲线
xy轴标签
图例位置-1
图例位置-2
xy轴刻度/数字等
生存率置信区间
删失点修改
P值及log-rank检验
配色方案-1
配色方案-2
综合版的KM曲线
#1.载入包
library(survival)
library(survminer)
#2.清理工作环境
rm(list = ls()) 
#3.读入数据
aa<- read.csv('20210201.csv')
#4.查看数据前6行
head(aa)
#5.查看数据数据性质
str(aa)
#6.查看生存或死亡人数
aa$status<-factor(aa$status)
summary(aa$status)
 建立人群总体生存函数 
 km<-survfit(Surv(time,status==0)~1,data=aa)
 注：status==0是指定0是结局即死亡，~1是看总体生存的情况。（status，0=死亡；1=生存）
 
 #查看整个数据集结局（死亡）的发生时间
#详细见图片说明
summary(km) 
 summary(km)是该生存函数最重要的结果，它总结了生存分析所有的信息。包括3.5年生存率及其95%CI ,中位生存时间，每个时间点的患者总数和死亡患者数目。之后的操作和美化时所汇报的信息均来自于它。 
 详见图片： 
 查看3.5年生存率 
 summary(km,time=c(36,60))
 画一个最常用的美化图形 
 ggsurvplot(km, 
           conf.int=T, #是否显示生存率的95%CI
           risk.table=TRUE,#显示风险表
           palette="lancet", #柳叶刀配色
           title="Kaplan-Meier Curve ", #大标题
           risk.table.height = 0.25 #风险表的高度比例
 某个变量的KM曲线 
 km1<-survfit(Surv(time,status==0)~sur,data=aa)
 ~后1改为sur或其他变量即可（sur=手术，亚变量sur=保乳术；MAST=根治术 ;No=未手术） 
 summary(km1)
#查不同手术方式的3.5年生存率
summary(km1,time=c(36,60)) 
 ggsurvplot(km1, 
           pval=TRUE, #显示p值
           pval.coord = c(0, 0.2),#p值位置坐标
           pval.size =5,#p值字体大小
           conf.int=T, #是否显示生存率的95%CI
           risk.table=TRUE,#显示风险表
           risk.table.height = 0.25, #风险表的高度
           palette="lancet", #柳叶刀配色
           title="Kaplan-Meier Curve for OS ", #大标题
           legend.labs=c("保乳", "全切","无手术"), 
           legend.title="手术",  #改图例名称 
           surv.median.line = "hv" #中位生存期。
 km曲线美颜 
  美化其实就是在ggsurvplot（）内加一行行的代码，下面是一码一图 
  0.  先看无美化的ggsurvplot(km1) 
 ggsurvplot(km1) 
  1. 将生存曲线改为累计死亡曲线 
 ggsurvplot(km1, 
           fun = "cumhaz"# 累计死亡曲线
  2. 更改xy轴标签 
 ggsurvplot(km1,
           xlab="时间(月)" ,#x轴标签
           ylab="总生存率"  #y轴标签
  3. 更改图例位置-1 
 ggsurvplot(km1,
           legend="left") 
#图例位置上、下、左、右、无=
#"top"(默认),"bottom","left","right","none"
  4. 更改图例位置-2 
 #以xy坐标确定图例位置
ggsurvplot(km1,
           legend=c(20,0.4)) 
  5. 更改xy轴刻度/数字等 
 ggsurvplot(km1,
           break.x.by=12 ,#x轴刻度的间距.例如12月一个刻度
           break.y.by=0.2 ,# 设定y轴刻度的间距，如break.y.by = 0.2
           surv.scale="percent" ,#"percent"生存用百分数表示
           #xlim= c(0,80), #一般用不到
           ylim=c(0,1), # y轴的范围
           axes.offset=FALSE # 为FALSE，则生存曲线图的坐标轴从原点开始。
  6. 生存率的置信区间 
 ggsurvplot(km1,
           conf.int = TRUE,#打开置信区间
           #conf.int.style="step",# 设置置信区间的类型
           conf.int.alpha =0.3#指定置信区间填充颜色的透明度(0-1)
           censor=T, #隐藏删失，默认为T，关掉为F
           censor.shape=124, # 删失的形状；默认为 +为3,|为124。
           censor.size=4.5 # 删失形状的大小，默认为4.5。
  8. P值及log-rank检验 
 ggsurvplot(km1,
           pval = TRUE,#打开P值
           pval.size=6, # p值字体大小，默认为5。
           pval.coord=c(20,0.1), # p值坐标=c(x,y)
           pval.method=TRUE,#打开log.rank
           pval.method.size=6, #log.rank字体大小
           pval.method.coord=c(1,0.1)#log.rank的坐标
 log-rank检验
 
 log_rank<-survdiff(Surv(time, status==0)~sur,rho=0,data=aa);log_rank
  9.  配色方案-1 
 ggsurvplot(km1, 
           palette="lancet") 
 #使用柳叶刀自动配色，我最喜欢的配色
# 其他高分SCI的配色，jco的也很好看。任选一个
# "grey","npg","aaas","lancet","jco", 
# "ucscgb","uchicago",
#"simpsons","rickandmorty". 
  10.  配色方案-2 
 ggsurvplot(km1, 
           palette=c("red", "yellow", "green"))
#自己配色，有几条线选几个颜色，例如
# "red", "pink", "purple", 
# "deep-purple", "indigo",
# "blue", "light-blue", "cyan",
# "teal", "green", "light-green", "lime",
# "yellow", "amber", "orange", 
# "deep-orange", "brown", "grey","blue-grey"
  整合版本的KM曲线，根据需要删减代码 
 ggsurvplot(km1, 
           title  = "三种手术方式患者的生存曲线",  
           xlab = "时间（月）", 
           ylab = "生存率", 
           font.main = c(16, "bold", "darkblue"), #字体大小，样式和颜色
           font.x = c(12,  "bold.italic","red"), #x轴标签的字体大小，斜体和颜色
           font.y = c(14, "darkred"), #y轴的字体大小，颜色
           font.tickslab = c(12, "plain", "darkgreen"), #更改刻度标签的字体大小，样式和颜色
           legend = c(0.2, 0.2), 
           legend.title = "手术方式", 
           legend.labs = c("保乳术", "全切术","未手术"), 
           size = 1,  #更改线号
           linetype = "strata", #按组更改线型（即“分层”）
           break.x.by=12 ,
           break.y.by=0.2 ,
           surv.scale="percent" ,
           palette ="aaas", 
           conf.int = T, 
           pval = TRUE, 
           pval.coord = c(12, 0),    
           pval.size = 5, 
           pval.method=TRUE,
           pval.method.size=5, 
           pval.method.coord=c(1,0),
           surv.median.line = "hv",  
           risk.table = "absolute", #"absolute"、"percentage"、"abs_pct"", #绝对人数、百分比和危险之中
           #risk.table.pos =in，#分线表放在图内
           risk.table.col = "strata", #按组更改风险表颜色
           risk.table.y.text.col = TRUE, #颜色风险表文本注释（按层）
           risk.table.y.text = FALSE, #在风险表图例中的文本注释中显示条形而不是名称
           risk.table.height = 0.2,  
           risk.table.title="时间点下的人群数目",
           fontsize=4,#风险表字体
           #ggtheme = theme_bw(), #使用主题自定义情节和风险表。
           #xlim = c(0, 95), 
           ylim = c(0, 1)
 ggsurvplot()函数的细节其实还有很多，这里只选择大家最常用的。 
 需要哪种细节时，只需将代码写入括号内，代码间以英文逗号隔开就可以了。 
 本期内容就到这里了，制作不易，喜欢的小伙伴帮忙点赞和转发，多谢大家支持！！ 
 本公众号致力于打造实用的科研干货和临床学习资料分享平台，假如你有临床和科研上的问题或经验分享，请私信我。 
 感谢阅读，如有错误请指正！ 
                                    ggsci包提供了一系列高质量的颜色，以顶级大刊的审美为我们定好颜色，从此告别颜色选择惆怅！scale_fill_jco()       #临床肿瘤学杂志 JCO。scale_fill_jama()    #美国医学会杂志，JAMA。scale_fill_lancet()  #柳叶刀 Lancet。大家可以欣赏上顶级期刊的颜色，挑一种最合适的用到你的论文中去吧！scale_fill_npg()     #Nature杂志。scale_fill_nejm()  #新英格兰 NEJM。
                                    生存分析研究的是某个事件发生之前过去的时间，在临床研究中最常见的应用就是死亡率的估计(预测患者的生存时间)，不过生存分析也可以应用于其他领域如机械故障时间等。
在R中，survival包中有很多函数可以对生存数据进行建模，可以使用survfit()函数来估计删失数据的生存曲线，使用coxph()函数用来拟合Cox比例风险模型。
在survminer包中，可以使用plot()函数、ggsurvplot()函数用来绘制Kaplan-Meier生存曲线。
今天就来学习在R中使用ggsurvplot()函数绘
                                    临床研究论文 COX 比例风险回归模型Fit Proportional Hazards Regression Model如果如下内容有错误，请留言，谢谢，感激不尽！1 写在前面本文需要的R包："survival" 、"tableone"、"broom"、"forestplot"和 "survminer".本代码使用survival自带的lung数据集，lung数据集中出现的变量解释：2 ...
                                    文章目录一 数据和R包二 原生KM曲线三 优化KM曲线1 survminer绘制KM曲线2 坐标轴，标题，主题优化3 Risk Table4 添加注释信息
本文首发于“生信补给站”：https://mp.weixin.qq.com/s/lpkWwrLNtkLH8QA75X5STw
生存分析作为分析疾病/癌症预后的出镜频率超高的分析手段，而其结果展示的KM曲线也必须拥有姓名和颜值！
生存分析相关...
                                    转载自画说统计 | 生存分析之Kaplan-Meier曲线都告诉我们什么
临床研究中，存在这样一类研究，我们关注的临床结局是一个事件，比如：死亡，复发，症状消失，疾病痊愈等等。在很多情况下，我们不仅关注事件是否发生，还会关注事件发生的早晚。同时，由于研究周期的限定，和患者依从性的差异，是我们不可能追踪到所有结局事件的发生。
面对这样的数据该如何统计分析呢？办法当然有，由于最初这类方法被应用于针对死亡结局的分析中，所以这类分析被称为：生存分析。其中，Kaplan-Meier方法是帮助我们描述生存结局（或者说，
                                    关于生存分析，这个大家都非常熟悉，也是临床研究的最最常用的方法，但是在使用过程中，无论是医生还是分析人员对它都有点迷糊，下面我整理的最全的关于生存分析方法的方方面面的知识点，并结合实际的TCGA数据库结果来展示用法，希望能够帮助大家理解其使用的方法和技巧。
                                    R语言survival包的survfit函数拟合生存曲线数据、survminer包的ggsurvplot函数可视化生存曲线、risk.table添加风险计数表、risk.table.col参数指定不同分层计数表的颜色不同
                                    生存分析研究的是某个事件发生之前过去的时间，在临床研究中最常见的应用就是死亡率的估计(预测患者的生存时间)，不过生存分析也可以应用于其他领域如机械故障时间等。在R中，survival包中有很多函数可以对生存数据进行建模，可以使用survfit()函数来估计删失数据的生存曲线，使用coxph()函数用来拟合Cox比例风险模型。在survminer包中，可以使用plot()函数、ggsurvplot(...
                                    科研绘图之R语言生存分析KM曲线和累计风险表KM估计R语言展示KM估计的生存函数曲线1、最简单的方法2、利用survminer包绘制3、进一步美化，添加累计风险表格、图例、文本注释
KM估计同时利用生存时间（连续变量）和生存结局（一般为分类变量，用来表示状态）信息，是一种求生存时间函数，即S(t)的方法。
KM估计的定义如下：
R语言展示KM估计的生存函数曲线
1、最简单的方法
在R里，有多种实现方法，最简单的就是
# An highlighted block
library(survival)
                                    机器学习 放射学 图像Lung cancer has been one of the leading causes of cancer-related deaths in Canada because of its high incidence and low survival rate. Based on the 2012–2014 data, the 5-year survival rate ...
                                    生存分析有个难点是删失(cersored)数据处理，删失数据是指整个数据收集过程都没发生事件的数据。说的有点拗口，举例说我们做某癌症生存分析，那么事件就是因此癌症导致病人死亡。如果有个病人随访期间不幸被车撞死了，那么这个病人记录到此为止，但是我们的事件并没有发生；或者病人突然搬到国外去了，无法继续随访记录，那这个人数据收集结束了，但事件也没有发生。这例子是右删失数据，还有左删失等感兴趣朋友可自行了...
                                    0. 简介生存分析（survival analysis）是生物医学研究中常用的分析方法。在队列随访研究中，我们会事先定义一些观察终点，比如肿瘤复发、患者死亡、血压达标等，这些终点称为事件（event）。从研究开始到发生事件的时间间隔称为生存时间（survival time），某些场景下也称为失效时间（failure time）。由于生存时间数据具有以下两个特点，所以提出生存分析这一特殊的分析方法：（1）偏态分布：生存时间通常具有明显的偏态分布，有正态分布假设的统计方法不能适用。（2）删失（censoring
                                    看SCI文章，发现一个规律，越是高分的文章作图越是“花里胡哨”，出各种新奇的图，色彩上也很鲜艳，而大多数人就喜欢看那种花里胡哨的。其实很多时候，我们里高分文章的图只差一个思路和配色，同样的数据别人做的图看起来很好，很大原因是颜色搭配的好。今天我们就谈谈R的色彩搭配，让你的作图可视化向高分文章看齐。
一、提取颜色
看到别人文章中好看的配色，直接提取是最方便的方法，可以使用AI或者PPT操作，主要是为了得到颜色的十六进制代码，可用于R绘图。不过这里我们介绍一种R的方式，可以将图片读入R中，提取一张图片所有颜色