KDD2021 | 用于预测蛋白质-配体结合亲和力的图神经网络
编译|陶雯 审稿|黄勇
本文介绍由中国科学技术大学和百度商业智能实验室等机构的研究人员合作发表于KDD 2021的研究成果:作者提出了一个基于图神经网络的模型SIGN(structure-aware interactive graph neural network),通过利用原子间的细粒度结构和相互作用信息来学习蛋白质-配体复合物的表征,从而更好地进行结合亲和力预测。SIGN由两部分组成:极坐标启发的图注意力层(PGAL)和成对相互作用池化(PiPool)。PGAL用来整合原子之间的距离和角度信息,进行三维空间结构建模。PiPool用来将蛋白质和配体之间的远程相互作用纳入模型中。在两个基准上的实验结果验证了SIGN的优越性。
1
研究背景
预测蛋白质与配体的结合亲和力已被广泛认为是计算药物发现中最重要的任务之一。这里的配体通常是指包括小分子和生物制剂在内的候选药物,它们可以在生物过程中作为激动剂或抑制剂与蛋白质相互作用以治疗疾病。结合亲和力,即蛋白质和配体(如药物)之间的结合作用的强度,可以通过实验方法测量,但是这些生物测试是费时费力的。通过计算机辅助模拟方法和数据驱动学习模型,可以在药物发现的早期阶段预测结合亲和力。与直接应用昂贵的生物方法来筛选众多候选分子不同,预测结合亲和力可以帮助对候选药物进行排序,优先选择合适的药物进行后续测试,从而加快药物筛选的进程。
最近的进展表明,通过学习蛋白质-配体复合物的表征,应用图神经网络(GNN)进行更好的亲和力预测有很大的前景。然而现有的解决方案通常将蛋白质-配体复合物作为拓扑图数据处理,没有充分利用生物分子结构信息。此外,蛋白质和配体之间的基本远程相互作用信息对于预测结合亲和力很有价值,但在目前的GNN框架下无法处理该信息。
2
主要贡献
(1)作者最早从极坐标的角度开发用于基于结构的结合亲和力预测的图神经网络。
(2)本文提出了一个基于图神经网络的模型(SIGN),它不仅可以通过极坐标启发的图注意力层(PGAL)捕获三维空间信息,还可以通过成对相互作用池化(PiPool)以半监督的方式捕获全局远程相互作用。
(3)本文使用两个基准数据集进行了大量的实验来评估所提出模型的性能,证明了SIGN具有更好的泛化性。
3
模型框架
作者提出了SIGN来模拟三维结构复合物和蛋白质-配体的空间相互作用。图1展示了以复合物相互作用图为输入的结构。作者从极坐标启发的图注意力层(PGAL)开始,它由节点→边和边→节点交互层组成。PGAL可以通过学习空间距离和角度信息来交替传播节点和边的嵌入。PGAL的这两部分对复合物的空间结构建模起到协同作用。之后,作者应用PiPool对边的表征进行处理,以获得复合物的基于原子类型的相互作用矩阵。从全局来看,PiPool的目的是近似蛋白质和配体之间的整体相互作用,以提高预测性能。最后,通过额外的自监督训练增强表征学习过程。
图1 SIGN框架的说明
4
性能评估
4.1 总体比较
作者首先在两个基准数据集上比较SIGN方法和基线方法。如表1所示,在五次随机运行中报告四个测试性能指标的平均值和标准差。可以观察到SIGN在两个数据集上取得了最佳性能,在PDBbind和CSAR-HiQ数据集上,RMSE分别比最佳基线模型提高了6.5%和3.9%。
表1 在PDBbind核心集与CSAR-HiQ集上的性能比较
4.2 泛化性比较
作者在PDBbind数据集的一般集上进行了额外的泛化性实验。如图2所示,作者在两个训练集上比较了所提出的SIGN和主要的竞争基线。结果表明,SIGN在两种训练设置下都得到了最低的预测误差。更重要的是,作者的模型在一般集上训练时,性能提高了8%左右,与基线相比,它进一步扩大了预测优势。结果表明,SIGN在数据量大但质量差的情况下具有更强的泛化性。
图2 在一般集上训练时对PDBbind基准的性能改进
4.3 空间和相互作用因素的影响
为了验证影响最终性能的因素的有效性,作者在两个基准上比较了SIGN及其变体。图3显示了所有指标的比较结果。可以看到SIGN优于其他变体,证明了协同处理空间和相互作用信息的必要性,这对于蛋白质-配体结合亲和力预测至关重要。
图3 空间和相互作用因素的贡献
4.4 参数分析
如图4所示,作者通过改变每个参数,同时将其他参数固定为默认设置,来研究参数设置(如截断距离和角域划分)对预测结果有什么影响。
截断距离(Cutoff distance):当截断距离≤5Å时,随着截断距离的增加,模型可以获得更多的复合物空间信息,这有助于更好地学习复合物表征,从而显著提高性能。大于5Å时,太长的截断距离将引入额外的冗余并降低性能。
角域划分(Angle domain divisions):当角域的数量为5或6时,模型的性能最好。过于细粒度或粗粒度的划分都将导致性能下降。
图4 在PDBbind核心集上的参数分析
5
结论
本文研究了如何改进蛋白质和配体之间的结合亲和力预测。作者提出了一个基于GNN的模型SIGN,通过利用原子间的细粒度结构和相互作用信息来学习蛋白质-配体复合物的表征,从而更好地进行结合亲和力预测。沿着这个思路,作者设计了极坐标启发的图注意力层(PGAL)来整合距离和角度信息,进行三维空间结构建模。同时,为了进一步提高预测性能,作者引入了精心设计的池化过程和相互作用矩阵的重构学习任务。最后,在两个基准上的实验结果表明了所提模型的有效性和泛化性。
参考资料
论文链接:https://arxiv.org/abs/2107.10670