Hanxuan Cai, Huimin Zhang, Duancheng Zhao, Jingxing Wu, Ling Wang*
*王领,华南理工大学
artificial intelligence; drug design and discovery; machine learning; molecular representation; graph attention networks
Deep learning is an important method for molecular design and exhibits considerable ability to predict molecular properties, including physicochemical, bioactive, and ADME/T (absorption, distribution, metabolism, excretion, and toxicity) properties. In this study, we advanced a novel deep learning architecture, termed FP-GNN, which combined and simultaneously learned information from molecular graphs and fingerprints. To evaluate the FP-GNN model, we conducted experiments on 13 public datasets, an unbiased LIT-PCBA dataset, and 14 phenotypic screening datasets for breast cell lines. Extensive evaluation results showed that compared to advanced deep learning and conventional machine learning algorithms, the FP-GNN algorithm achieved state-of-the-art performance on these datasets. In addition, we analyzed the influence of different molecular fingerprints, and the effects of molecular graphs and 1molecular fingerprints on the performance of the FP-GNN model. Analysis of the anti noise ability and interpretation ability also indicated that FP-GNN was competitive in real-world situations.
预测准确的分子特性,包括物理化学和生物活性特性,以及ADME/T(吸收、分布、代谢、排泄和毒性)特性,仍然是分子设计的一个基本挑战,特别是对于药物的发现和开发。定量构效(性质)关系(QSAR/QSPR)建模是分子性质预测[1,2]中应用最广泛、最成熟的计算方法之一。QSAR/QSPR模型是使用经验、线性或非线性函数构建的,该函数基于化学结构估计活性/性质,然后应用这些模型来预测和设计具有期望功能性质[3,4]的新分子。实验数据的不断积累(如化学、生物和药理相关数据),人工智能(AI)和机器学习(ML)算法已经成为不可或缺的工具建立QSAR/QSPR模型,促进快速、可靠和负担得起的预测和评价物理化学、生物和ADME/T属性小分子的药物发现实践。
通常,基于ml的QSAR/QSPR模型严重依赖于适当的分子表征[5]。分子表征在QSAR/QSPR分析中发挥着关键作用,因为在这类模型中有大量的分子特征,以及对模型可解释性的共同要求。目前,分子表示可以分为三类,包括分子描述符、分子指纹和分子图。分子描述符和指纹来源于人类专家领域的知识,用于全面介绍分子[6-8]的结构、物理化学、拓扑和结构特征。分子描述符和指纹很容易和快速计算,可以作为输入传统ML(例如,朴素贝叶斯(NB)[9],支持向量机(SVM)[10],随机森林(RF)[11],极端梯度增强(XGBoost)[12]),和深度学习(如深度神经网络)算法QSAR/QSPR建模任务。然而,基于分子描述符的QSAR/QSPR模型,特别是传统的ML模型,在大数据时代面临一个主要挑战:如何选择与大量的预定义和可计算的分子描述符[13]相关的最重要的描述符(称为手工描述符)。这一步不仅对模型的性能精度具有重要意义,而且与模型的可解释性直接相关。最近,深度学习(DL)方法的出现,通过将该任务委托给神经网络,可以提取最有价值的特征,以建模[14,15]手头的问题,从而消除了令人讨厌的专家和领域级的特征构建。相比之下,对于基于图的分子表示,分子的原子和键被视为节点和边缘,和聚合节点特征使用DL架构,如图卷积网络(GCN)[16]图注意网络(GAT)[17],注意FP [18]消息传递神经网络(MPNN)[19]和定向MPNN(D-MPNN)[20]化学学习任务。基于图的DL体系结构已经流行起来,并已成功地应用于分子性质预测任务[21-26]。
尽管据报道,基于图的DL体系结构在分子特性预测任务中产生了最先进的(SOTA)性能,但基于图的DL模型在分子特性学习任务中是否优于传统的基于描述符的ML模型仍然存在争议。以往的大多数研究认为,基于图的DL模型与传统的基于描述符或基于指纹的ML模型[20,27,28]相当或优越,而只有少数研究给出了相反的结论[29,30]。例如,2021年,Jiang等[30]对11个公共数据集上基于图的DL模型(即GCN、GAT、MPNN、从分子图中提取特征的注意FP)和传统描述符模型(即SVM、XGBoost、RF和DNN)进行了全面比较,证明传统的基于描述符的模型(特别是RF和XGBoost ML算法)在预测精度和计算效率方面优于基于图的DL模型。斯特皮斯尼克和同事最近的另一项研究也报告了类似的结论[31]。目前,基于图的DL模型仍然存在建模数据集不足的潜在局限性,因为图神经网络(GNN)的自动学习机制特征可能难以从不足的数据集[32]中学习鲁棒的图表示。2020年,雷法奥格鲁等人[28]发现,基于图谱和指纹的分类器在预测蛋白质家族的属性时表现出相反的趋势。我们假设通过图形或指纹所捕获的信息是不同的,并且可能是互补的。因此,指纹中所包含的重要的局部化学信息可能有助于模型获得更好的结果。
在本研究中,我们引入了一种新的DL神经网络结构,FP-GNN(图1),用于分子性质的预测。FP-GNN首先在一个结合了分子图和分子指纹的混合分子表示上进行操作。它不仅利用任务编码中的注意机制将节点信息从附近节点传播到更远的节点来表征局部原子环境,而且还利用固定和互补的分子指纹提供了强大的先验。我们评估了FP-GNN模型和其他最近发布的基于图的DL算法(如D-MPNN(Chemprop)、注意FP和HRGCN+)和一个古老的基于指纹的CML算法XGBoost,针对13个常用的公共基准。与所有基线模型相比,FP-GNN在13个公共数据集的16个实验中有11个获得了相当或优越的性能,因此,说明了它在建模广泛的分子特性时强大的开箱即用和SOTA性能。
FP-GNN也在LIT-PCBA上进行了测试,这是一个用于ML和虚拟筛选(VS)的无偏置数据集,与基于指纹的CML方法(如NB、SVM、RF和XGBoost)和基于图的DL方法(如GCN和GAT)具有相当或优越的性能。此外,与XGBoost CML方法和基于图的DL方法(如GAT、GCN、MPNN和注意FP)相比,FP-GNN在14个乳腺细胞系表型筛选数据集上表现良好。这些结果证实了我们的假设,即分子指纹可以提高基于图的DL算法的泛化能力。FP-GNN的抗噪声能力测试也显示了其优于注意FP、XGBoost和HRGCN+模型,同时保持了较高的预测能力。此外,FP-GNN的可解释性可以从基于图的表示中推断出重要片段,从基于指纹的表示中推断出重要子结构,这可以帮助化学家设计具有所需功能或特性的更好分子。
与其他基于图的方法[18,20]类似,我们在将数据导入GNN模型之前,利用分子的特性来初始化分子图的节点。
分子指纹是根据不同的既定规则,从分子中映射出来的位串,是抽象的分子表示。分子指纹大致分为基于子结构的指纹、拓扑或路径的指纹和圆形指纹[34]。在FP-GNN模型中使用了三个互补指纹(MACCS指纹[35]、药效团ErG指纹[36]和PubChem指纹[37],因为它们可以补充和全息表达分子特征[38]。这三种指纹的描述如下:
MACCS指纹:基于智能模式的子结构指纹。MACCS包含了不同拓扑分离下的大多数原子性质、键性质和原子邻域,这对药物的发现具有重要意义。我们选择了1+166位的短变体进行本研究。
PubChem指纹:基于881位的子结构键指纹,广泛覆盖化学结构。
药效团ErG指纹:利用扩展简化图(ErG)方法的二维药效团指纹,并应用药效团类型节点描述来编码分子性质。