生信分析:怎么利用机器学习算法发4+文章?
随着大数据时代的到来,机器学习为生物信息学的发展带来了新的机遇,生信分析也成为近年来炙手可热的研究领域。常规的生信分析思路,主要包括差异基因的筛选、功能富集分析、基因表达水平的检验以及预后模型的建立和评估。但是这类文章创新性较低,一般发表的文章在2分左右。想要突破常规套路,就需要添加一些不同的分析。今天小编给大家带来一篇文章,看看它如何利用机器学习算法做到4+的!
研究背景
妊娠期糖尿病(GDM)是一种妊娠期才出现或确诊的糖尿病,在妊娠期前患者往往糖代谢正常。GDM给孕妇及其胎儿都会造成很大危害, 但GDM的发病机制尚不清楚,很多证据表明,免疫细胞及其分泌的促炎因子在GDM的发生发展中起到重要作用。
技术路线
本文利用GEO数据库中的基因表达数据,筛选出差异表达基因(DEGs),并与免疫相关基因(IRGs)交联,得到差异表达的免疫相关基因(DIRGs)并对其进行功能富集分析。随后通过建立三种模型筛选出最关键的4个DIRGs建立诊断模型。最后通过讨论免疫细胞与炎症及四个关键基因的关系,探究胎盘炎症与GDM的关系。技术路线图如下:
主要结果
1、差异基因的筛选。
首先通过筛选GEO数据库中与GDM相关的差异表达基因(DEGs),得到705个差异表达基因,与2499个免疫相关基因(IRGs)进行交联,共得到79个差异表达的免疫相关基因(DIRGs)。
2、富集分析。
通过GO和KEGG分析,发现这些差异表达的免疫相关基因与炎症密切相关,表明GDM与炎症也有一定的关系。
3、四种关键基因的筛选——DKK1、ILRL1、FABP4和CXCL10。通过建立随机森林模型(RF)、支持向量机模型(SVM)和广义线性模型(GLM),选择最优模型(RF),并从中筛选得到最显著的四个关键DIRGs:DKK1、ILRL1、FABP4和CXCL10。
4、四种基因的表达水平分析。
四种基因在GDM组织中表达水平均高于正常组织,表明DKK1、ILRL1、FABP4和CXCL10在GDM的诊断中起到重要作用。
5、诊断模型的建立。
利用以上得到的四个关键DIRGs(DKK1、ILRL1、FABP4和CXCL10)构建GDM患者诊断模型。从验证曲线中可看出列线图预测GDM的准确度非常高;决策曲线分析也表明患者可以从构建的诊断模型中获益;临床影响曲线说明该诊断模型预测能力良好。
6、免疫浸润分析。
GDM中M1巨噬细胞浸润丰度较正常组织较高,而M2浸润丰度较低。M1可产生诸如CXCL10的促炎因子,导致炎症发生,而M2具有抗炎作用。这表明巨噬细胞在胎盘炎症中起到重要的调控作用。
总之,这篇文章发现胎盘炎症与GDM之间关系密切,鉴定了4种免疫相关的基因,并基于这四个关键基因建立了诊断模型,为临床诊断提供了理论依据。文章的主要亮点是充分利用机器学习算法筛选差异表达的免疫相关基因,构建患者诊断模型。
今天的分享就到这里啦~
这篇文章思路比较简单,主要是方法和模型比较新颖,有没有给你带来一点启发呢?感兴趣的童鞋快去下载原文:“Placenta inflammation is closely associated with gestational diabetes mellitus”, https://www. ncbi.nlm.nih.gov/pmc/ar ticles/PMC8205654/ 。