开朗的风衣 · 2021年第24号公告:世行贷款浙江千岛湖及 ...· 1 月前 · |
没人理的骆驼 · 用MATLAB生成一个聚类算法 - CSDN文库· 3 月前 · |
腹黑的领带 · 钢铁契约漫画下拉式 - 抖音· 1 年前 · |
魁梧的八宝粥 · 解构与传承:一次哲学版的大话西游 - 知乎· 1 年前 · |
高大的黑框眼镜 · 海贼王926话图片:废柴卡里布出场,他想成为 ...· 1 年前 · |
蚌埠医学院第一附属医院肿瘤外科,安徽 蚌埠 233000, Department of Surgical Oncology, First Affiliated Hospital of Bengbu Medical College, Bengbu 233000, China
蚌埠医学院第一附属医院肿瘤外科,安徽 蚌埠 233000, Department of Surgical Oncology, First Affiliated Hospital of Bengbu Medical College, Bengbu 233000, China
蚌埠医学院第一附属医院肿瘤外科,安徽 蚌埠 233000, Department of Surgical Oncology, First Affiliated Hospital of Bengbu Medical College, Bengbu 233000, China
蚌埠医学院第一附属医院肿瘤外科,安徽 蚌埠 233000, Department of Surgical Oncology, First Affiliated Hospital of Bengbu Medical College, Bengbu 233000, China 蚌埠医学院第一附属医院肿瘤外科,安徽 蚌埠 233000, Department of Surgical Oncology, First Affiliated Hospital of Bengbu Medical College, Bengbu 233000, China Survival time (months, Mean ± SD )χ 2 Gender0.4140.520 Female3752.855±6.040 Male16658.261±2.649Age (years)4.0480.044 ≤646064.034±4.073 > 6414354.188±2.946Borrmann8.5670.003 Ⅰ+Ⅱ17359.462±2.517 Ⅲ+Ⅳ3041.859±6.705Grade18.281< 0.001 Ⅰ+Ⅰ-Ⅱ2071.723±5.106 Ⅱ+Ⅱ-Ⅲ13459.988±2.836 Ⅲ4941.370±5.078pT10.6940.001 T1+T24772.334±3.849 T3+T415652.633±2.839pN26.475< 0.001 N0+N112566.414±2.713 N2+N37841.919±3.947pTNM19.626< 0.001 Ⅰ+Ⅱ9468.581±2.983 Ⅲ+Ⅳ10947.004±3.414Tumor size (cm)11.2840.001 < 3.57169.329±3.482 ≥3.513250.410±3.064Chemotherapy19.133< 0.001 Yes9068.930±3.32 No11347.436±3.170Fibr (g/L)13.163< 0.001 < 3.310266.364±3.131 ≥3.310147.963±3.473D-dimer (mg/L)12.600< 0.001 ≤0.286270.271±3.445 > 0.2814151.170±3.028Surgical approach12.778< 0.001Proximal gastrectomy12963.639±2.837Total gastrectomy7445.554±4.194Postoperative hospital stay (d)0.1100.741 ≤103659.918±6.313 > 1016756.544±2.596PNI8.2330.016 < 50.611259.526±3.335 ≥50.6, ≤53.54344.156±4.966 > 53.54764.169±4.326NLR0.0010.975 ≤3.616856.984±2.598 > 3.63555.507±6.257WBR0.1550.925 < 1.48857.330±3.780 ≥1.4, < 1.99756.135±3.408 ≥1.91858.876±7.839CEA (ng/mL)34.647< 0.001 ≤0.825483.681±1.993 > 0.8214947.518±2.817AFP (ng/mL)34.8710.005 ≤1.115879.718±2.777 > 1.1114547.807±2.855CA199 (U/mL)21.836< 0.001 ≤4.55475.832±3.561 > 4.514950.319±2.827
Factor | Univariate analysis HR (95% CI ) | Mulivariate analysis HR (95% CI ) | ||
Gender | 0.520 | |||
Female | 1.00 | |||
Male | 0.85 (0.51-1.41) | |||
Age (year) | 0.046 | 0.879 | ||
≤64 | 1.00 | 1.00 | ||
> 64 | 1.64 (1.01-2.67) | 1.04 (0.61-1.79) | ||
Borrmann | 0.004 | 0.009 | ||
Ⅰ+Ⅱ | 1.00 | 1.00 | ||
Ⅲ+Ⅳ | 2.09 (1.26-3.46) | 2.16 (1.21-3.84) | ||
Grade | < 0.001 | 0.216 | ||
Ⅰ+Ⅰ-Ⅱ | 1.00 | 1.00 | ||
Ⅱ+Ⅱ-Ⅲ | 2.05 (0.82-5.11) | 0.125 | 1.36 (0.52-3.55) | 0.528 |
Ⅲ | 4.45 (1.73-11.43) | 0.002 | 1.98 (0.73-5.40) | 0.183 |
pT | 0.002 | |||
T1+T2 | 1.00 | |||
T3+T4 | 2.65 (1.44-4.86) | |||
pN | < 0.001 | |||
N0+N1 | 1.00 | |||
N2+N3 | 2.81 (1.86-4.23) | |||
pTNM | < 0.001 | 0.004 | ||
Ⅰ+Ⅱ | 1.00 | 1.00 | ||
Ⅲ+Ⅳ | 2.61 (1.68-4.04) | 1.99 (1.25-3.18) | ||
Tumor size (cm) | 0.001 | 0.021 | ||
< 3.5 | 1.00 | 1.00 | ||
≥3.5 | 2.20 (1.37-3.54) | 1.85 (1.10-3.13) | ||
Chemotherapy | < 0.001 | < 0.001 | ||
Yes | 1.00 | 1.00 | ||
No | 2.66 (1.69-4.19) | 3.01 (1.79-5.07) | ||
Fibr (g/L) | < 0.001 | 0.978 | ||
< 3.3 | 1.00 | 1.00 | ||
≥3.3 | 2.14 (1.40-3.26) | 1.01 (0.63-1.62) | ||
D-dimer (mg/L) | 0.001 | 0.124 | ||
≤0.28 | 1.00 | 1.00 | ||
> 0.28 | 2.43 (1.47-4.03) | 1.55 (0.89-2.70) | ||
Surgical approach | < 0.001 | 0.043 | ||
Proximal gastrectomy | 1.00 | 1.00 | ||
Total gastrectomy | 2.09 (1.38-3.16) | 1.61 (1.02-2.54) | ||
Postoperative hospital stay (d) | 0.741 | |||
≤10 | 1.00 | |||
> 10 | 1.10 (0.61-1.99) | |||
PNI | 0.019 | 0.069 | ||
< 50.6 | 1.00 | 1.00 | ||
≥50.6, ≤53.5 | 1.76 (1.09-2.83) | 0.020 | 1.88 (1.10-3.20) | |
> 53.5 | 0.82 (0.48-1.40) | 0.458 | 1.30 (0.71-2.38) | |
NLR | 0.975 | |||
≤3.6 | 1.00 | |||
> 3.6 | 1.01 (0.59-1.73) | |||
WBR | 0.870 | |||
< 1.4 | 1.00 | |||
≥1.4, < 1.9 | 1.52 (0.85-2.153) | |||
≥1.9 | 0.97 (0.70-1.35) | |||
CEA (ng/mL) | < 0.001 | 0.003 | ||
≤0.82 | 1.00 | 1.00 | ||
> 0.82 | 8.13(3.55-18.63) | 3.58 (1.52-8.42) | ||
AFP (ng/mL) | < 0.001 | 0.004 | ||
≤1.11 | 1.00 | 1.00 | ||
> 1.11 | 7.36 (3.39-15.95) | 3.33 (1.46-7.59) | ||
CA199 (U/mL) | < 0.001 | 0.201 | ||
≤4.5 | 1.00 | 1.00 | ||
> 4.5 | 4.48 (2.25-8.93) | 1.61 (0.78-3.33) |
Variables | Training set ( n =153) | Validation set ( n =50) | |
Survival (month, Mean ± SD ) | 45.742±2.209 | 43.7992±3.876 | 2.496 |
Age (year) | |||
≤64 | 46 (30.1%) | 14 (28%) | 0.921 |
> 64 | 107 (69.9%) | 36 (72%) | |
Borrmann | |||
Ⅰ+Ⅱ | 128 (83.7%) | 45 (90%) | 0.386 |
Ⅲ+Ⅳ | 25 (16.3%) | 5 (10%) | |
pT | |||
T1+T2 | 33 (21.6%) | 14 (28%) | 0.458 |
T3+T4 | 120 (78.4%) | 36 (72%) | |
pN | |||
N0+N1 | 95 (62.1%) | 30 (60%) | 0.923 |
N2+N3 | 58 (37.9%) | 20 (40%) | |
pTNM | |||
Ⅰ+Ⅱ | 71 (46.4%) | 23 (46%) | 1.000 |
Ⅲ+Ⅳ | 82 (53.6%) | 27 (54%) | |
Tumor size | |||
< 3.5 cm | 52 (34%) | 19 (38%) | 0.730 |
≥3.5 cm | 101 (66%) | 31 (62%) | |
Chemotherapy | |||
yes | 69 (45.1%) | 21 (42%) | 0.827 |
No | 84 (54.9%) | 29 (58%) | |
Fibr (g/L) | |||
< 3.3 | 80 (52.3%) | 22 (44%) | 0.393 |
≥3.3 | 73 (47.7%) | 28 (56%) | |
D-dimer (mg/L) | |||
≤0.28 | 49 (32%) | 13 (26%) | 0.531 |
> 0.28 | 104 (68%) | 37 (74%) | |
Surgical approach | |||
Proximal gastrectomy | 99 (64.7%) | 30 (60%) | 0.666 |
Total gastrectomy | 54 (35.3%) | 20 (40%) | |
CEA (ng/mL) | |||
≤0.82 | 38 (24.8%) | 16 (32%) | 0.417 |
> 0.82 | 115 (75.2%) | 34 (68%) | |
AFP (ng/mL) | |||
≤1.11 | 47 (30.7%) | 11 (22%) | 0.315 |
> 1.11 | 106 (69.3%) | 39 (78%) | |
CA199 (U/mL) | |||
≤4.5 | 40 (26.1%) | 14 (28%) | 0.941 |
> 4.5 | 113 (73.9%) | 36 (72%) | |
Grade | |||
Ⅰ+Ⅰ-Ⅱ | 15 (9.8%) | 5 (10%) | 1.000 |
Ⅱ+Ⅱ-Ⅲ | 101 (66%) | 33 (66%) | |
Ⅲ | 37 (24.2%) | 12 (24%) | |
PNI | |||
< 50.6 | 89 (58.2%) | 24 (48%) | 0.444 |
≥50.6, ≤53.5 | 31 (20.3%) | 12 (24%) | |
> 53.5 | 33 (21.6%) | 14 (28%) |
将训练集中Cox多因素分析有统计学意义的变量作为独立预后因素纳入构建Cox-PH。通过逐步回归法计算风险比率(HR)和95% 可信区间(CI),并以列线图的形式显展示。根据列线图( 图 2 ),计算训练集和验证集中各项得分总和得到总分,将总分按照列线图对应生存率,绘制出训练集和验证集3年和5年的ROC曲线、校正曲线以及临床决策曲线(DCA)( 图 3 、 图 4 和 图 7 )。
153例训练集数据用于建模,本研究基于Cox单因素分析中的13个变量( P < 0.05)作为输入。在训练集中利用网格搜索方法确定XGBoost、随机森林(RF)、支持向量机(VM)、多层感知机(MLP)模型最优的超参数,逻辑回归采用默认参数。并使用5折重采样验证对模型进行训练和内部验证,最终得到最佳参数。各模型参数如下,XGBoost模型:优化目标函数使用二元logistic,学习速率设置为0.3,最大树深度设置为8;最小分叉权重和设置为4,L2正则化系数设置为1。RF模型:度量指标使用gini,最小分叉纯度收益设置为0.0,树数目设置为100。SVM模型:正则化因子设置为1.0,核类型使用rbf,收敛度量设置为0.1。MLP模型:输入层、隐藏层1、隐藏层2、输出层的节点分别设置为13、20、10、1,每一层运算方式都采用relu激活函数并随机初始化。训练次数为20次。经过多次训练计算出训练集中各模型3年和5年的AUC值,并在验证集中予以验证。为评估4种ML模型之间的预测效能,使用该4种ML模型对所有样本进行生存预测,在按照7:3比例随机划分独立训练集和验证集后,对训练集应用交叉验证进行超参数调优,充分利用训练集数据,避免测试集数据的泄露,同时在验证集中验证,统计各个模型在训练集和测试集上AUC表现。
本研究连续变量使用X-til3.6.1进行最佳截断值选取。数据分析使用SPSS 26.0软件,计数资料使用 t 检验法,计量资料使用卡方或者精确概率分析法,Kaplan-Meier法统计各分组生存率,log-rank法对比各分组之间的差异, P < 0.05为差异具有统计学意义。Cox回归模型、机器学习模型构建、图形绘制、程序开发采用R软件4.2.2版本(R Foundation for Statistical Computing, Vienna, Austria, http:/www.Rproject.org/ )、Rstudio(2022, PBC, Boston, MA, http:/www.rstudio.com/ )和python3.11.0。
本研究共纳入AEG患者203例,其中男性166例,女性37例,男女比为4.48∶ 1,平均年龄为67.9岁,年龄范围为44~83岁,≥60岁占82.84%。11个连续变量通过X-tile进行最佳截断值选取,分别为:年龄(64岁)、肿瘤大小(3.5 cm)、Fibr(3.3 g/L)、D-dimer(0.28 mg/L)、PNI(50.6, 53.5)、术后住院时间(10 d)、NLR(3.6)、WRB(1.4, 1.9)、CEA(0.82 ng/mL)、AFP(1.11 ng/mL)、CA199(4.5 U/mL),分组结果见 表 1 。
本研究采用Kaplan-Meier法对19个变量进行生存曲线绘制( 图 1 )。根据生存曲线,其中性别、术后住院时间和NLR不符合等比例假设,Log-rank检验显示其中年龄( P =0.044)、Borrmann分型( P =0.003)、分化程度( P < 0.001)、浸润深度( P =0.001)、淋巴结转移数量( P < 0.001)、病理TNM分期( P < 0.001)、肿瘤最大直径( P = 0.001)、术后化疗( P < 0.001)、Fibr( P < 0.001)、D-dimer( P < 0.001)、手术方式( P < 0.001)、PNI( P =0.016)、CEA( P < 0.001)、AFP( P =0.005)、CA199( P < 0.001)共15个变量具有统计学意义( 表 1 )。基于Cox单因素分析结果 P < 0.05的15个变量,排除浸润深度和淋巴转移数,进行Cox多因素分析,获得7个有统计学意义的变量分别为:Borrmann分型( P =0.009)、病理TNM分期( P =0.004)、肿瘤最大直径( P =0.021)、术后化疗( P < 0.001)、手术方式( P =0.043)、CEA( P =0.003)、AFP( P =0.004, 表 2 )。Cox回归模型预测训练集3年和5年生存率的AUC分别为0.920、0.944。使用验证集予以验证:验证集3年AUC= 0.870、验证集5年AUC=0.915。Cox回归模型训练集和验证集的临床决策曲线(DCA)( 图 7 )显示:在模型的阈值设置在10%~90%阈值范围内,决策曲线位于None线和All线的上方,因此该模型具有临床实用性。校准曲线提示,Cox回归模型的预测概率与实际观察值具有较好的一致性。
训练集中机器学习模型对3年预测的AUC值分别为:XGBoost(AUC=0.913)、RF(AUC=0.997)、SVM(AUC=0.954)、MLP(AUC=0.701);5年预测的AUC值分别为:XGBoost(AUC=0.922)、RF(AUC=0.999)、SVM(AUC=0.953)、MLP(AUC=0.784)。验证集对模型予以验证,3年的预测AUC值分别为:XGBoost(AUC=0.901)、RF(AUC=0.791)、SVM(AUC=0.832)、MLP(AUC=0.725);5年的预测AUC值分别为:XGBoost(AUC=0.916)、RF(AUC=0.758)、SVM(AUC=0.905)、MLP(AUC=0.737)( 表 4 )。4种ML模型基于全部样本独立划分训练集,预测所有时间段生存率结果如下:XGBoost(AUC=0.900)、RF(AUC= 0.999)、SVM(AUC=0.928)、MLP(AUC=0.781);验证集对模型予以验证,生存率结果如下:XGBoost(AUC= 0.818)、RF(AUC=0.772)、SVM(AUC=0.804)、MLP(AUC=0.745)( 表 5 )。通过绘制4种模型验证集预测的临床决策曲线( 图 8 ),4种ML模型验证集ROC分析中模型的最佳截断值分别为XGBoost(cutoff=38.5%)、RF(cutoff=50.7%)、MLP(cutoff=46.1%)、SVM(cutoff= 46.0%),在该阈值下,XGBoost和SVM模型的决策曲线位于None线和All线的上方,MLP和RF模型的决策曲线没有或不完全位于None线和All线的上方,故XGBoost和SVM模型具有临床实用性。综合4种ML模型验证集预测的AUC得分森林图、校准曲线( 图 5 、 6 )和临床决策曲线。可以看出XGBoost模型稳定性较好;SVM预测效能其次;RF模型的预测概率与实际观察值的一致性较差,可能出现过拟合,即训练集中变现出色,但在验证集中变现不佳;MLPL模型的预测概率和实际观察值均不理想。
Model | Training set | Validation set | |||||||
AUC | AC | SE | SP | AUC | AC | SE | SP | ||
XGB: eXtreme gradient boosting; RF: Random forests; SVM: Support vector machines; MLP: Multi- layer perceptron; AC: Accuracy; SE: Sensitivity; SP: Specificity. | |||||||||
XGB | |||||||||
3 years | 0.913 | 0.810 | 0.852 | 0.795 | 0.901 | 0.772 | 0.900 | 0.710 | |
5 years | 0.922 | 0.845 | 0.848 | 0.855 | 0.916 | 0.872 | 0.957 | 0.853 | |
RF | |||||||||
3 years | 0.997 | 0.965 | 1.000 | 0.944 | 0.791 | 0.672 | 0.667 | 0.800 | |
5 years | 0.999 | 0.979 | 1.000 | 0.963 | 0.758 | 0.623 | 1.000 | 0.455 | |
SVM | |||||||||
3 years | 0.954 | 0.873 | 0.944 | 0.841 | 0.832 | 0.801 | 0.780 | 0.610 | |
5 years | 0.953 | 0.894 | 0.984 | 0.838 | 0.905 | 0.821 | 0.926 | 0.588 | |
MLP | |||||||||
3 years | 0.701 | 0.606 | 0.255 | 0.813 | 0.725 | 0.541 | 0.348 | 0.684 | |
5 years | 0.784 | 0.711 | 0.763 | 0.699 | 0.737 | 0.656 | 0.900 | 0.548 |
Model | Training Set | Validation Set | |||||||||
AUC | Cutoff | AC | SE | SP | AUC | Cutoff | AC | SE | SP | ||
XGB | 0.9 | 0.453 | 0.812 | 0.883 | 0.76 | 0.818 | 0.385 | 0.727 | 0.85 | 0.764 | |
RF | 0.999 | 0.503 | 0.977 | 1 | 0.959 | 0.772 | 0.507 | 0.689 | 0.791 | 0.755 | |
MLP | 0.781 | 0.459 | 0.721 | 0.705 | 0.743 | 0.745 | 0.461 | 0.658 | 0.818 | 0.709 | |
SVM | 0.928 | 0.464 | 0.85 | 0.865 | 0.848 | 0.804 | 0.46 | 0.733 | 0.828 | 0.755 |
AEG早期确诊率低,绝大部分就诊时已有淋巴结转移 [ 15 , 16 ] ,且由于其解剖部位特殊,与传统的远端胃癌的比较,AEG的总体预后较差。根据文献报道,手术根治率平均在80%左右,根治术后的5年生存率也仅为30% 左右 [ 17 , 18 ] 。本研究资料显示AEG术后3年生存率为43.8%,5年生存率为37.0%,其5年生存率略低于他人报道的贲门癌5年生存率40% [ 19 ] ,近似于研究报道的AEG5年生存率38.5% [ 20 ] ,因此本研究为预测AEG术后生存率提供了新的参考。
精准预测手术预后对AEG患者的后续治疗决策具有重要意义。目前,对于肿瘤术后的预后预测主要是基于Logistic回归模型和Cox回归建模 [ 21 , 22 ] ,Logistic回归模型缺少生存时间,对生存预测不及Cox回归模型,本次研究使用了Cox-PH对AEG生存率进行建模预测,获得了较好的预测结果。Cox-PH的构建需要满足等比例假设,因此在构建该模型时,需要舍弃部分重要预后影响因素。Cox-PH属于线性回归,其预测需满足线性回归方程,无法捕捉特征之间的交互关系,相比之下,机器学习技术可以更好地捕捉到特征之间的复杂关联 [ 23 ] ,从而提高模型的准确性。
本研究利用了性别、年龄、Borrmann分型、分化程度、浸润深度(T分期)、淋巴结转移数量(N分期)、病理TNM分期、肿瘤最大直径、术后化疗、Fibr、D-dimer、手术方式、术后住院时间、PNI、NLR、WBR、CEA、AFP、CA199共19项临床工作中易于获取的临床观察指标,构建了预测AEG 3年和5年生存状态的Cox-PH和4种机器学习模型。在最终建模的19项临床观察指标中,Fibr和D-dimer术前血液指标与胃癌生存率的相关性研究较少,故本次研究纳入以上两种临床观察指标,通过5种生存预测模型予以验证其与AEG预后具有相关性。Borrmann分型、分化程度、浸润深度(T分期)、淋巴结转移数量(N分期)、病理TNM分期、肿瘤最大直径是公认的影响AEG患者预后的因素 [ 24 - 27 ] 。浸润深度(T分期)、淋巴结转移数量(N分期)、病理TNM分期3种临床观察指标具有高度重叠,为防止机器学习模型的过拟合,本研究在构建5种模型时排除了浸润深度和淋巴结转移数量两种指标。在机器学习模型的构建中,对训练集应用交叉验证进行超参数调优,各模型均充分表达出其预测效能。综合各个模型在训练集和测试集ROC曲线的AUC值、校准曲线及DCA曲线表现,XGBoost模型在机器模型中表现最佳,其在训练集和测试集内的AUC值均≥0.80,Cox回归模型也具有较高的预测效能,但其算法的局限性和丢失重要临床观察指标的特性,使其不能与XGBoost相比。因此,本研究构建的XGBoost模型具有较高的实用性和可靠性。
本研究的局限性:本研究为单中心研究,纳入患者数量有限,机器学习模型在大数据集上应用可获得更加稳定的结果 [ 28 ] 。本次研究中MLP为深度学习模型,是ML模型的子集,为人工神经网络,具有较高的非线性特征数据学习模拟的能力,但在本研究中未表现出其应有的预测效能,可能原因是研究中,未有效提取变量特征,数据量较少。因此在后续的研究中,可加入多中心的数据进行训练和外部验证,从而得到更加可靠的预测模型。其次,家族史、吸烟、饮酒等可能影响AEG患者远期预后的因素未纳入本研究收集的19项临床观察指标,在后续的模型优化中,可加入更多可能影响AEG远期预后的因素,以不断完善预测模型。最后,本研究是利用回顾性数据开发和验证的,在正式临床实践前,还应进行前瞻性验证研究以确认模型的可靠性。
综上所述,本研究基于临床工作常见的19个临床病理特征构建了预测AEG术后生存风险的Cox-PH和机器学习模型,其中XGBoost模型效能最佳。可为AEG的预后评估、术后治疗决策提供重要参考,进而推动AEG的个体化诊治。
高凯绩,在读硕士研究生,E-mail: moc.qq@8309062521
蚌埠医学院512人才培育计划(by51202207)
没人理的骆驼 · 用MATLAB生成一个聚类算法 - CSDN文库 3 月前 |
腹黑的领带 · 钢铁契约漫画下拉式 - 抖音 1 年前 |
魁梧的八宝粥 · 解构与传承:一次哲学版的大话西游 - 知乎 1 年前 |