生物测试是费力和耗时的。利用计算机辅助模拟方法和数据驱动学习模型,可以在药物发现的早期阶段预测绑定亲和力。结合亲和度的预测可以帮助对候选药物进行排序,并优先选择合适的药物进行后续测试,从而加快药物筛选的过程
4.1综述
:两大挑战:1.复杂图具有独特的结构 2.蛋白质和配体之间的远程相互作用对结合亲和力也至关重要
现有的GNN无法捕获这样的空间信息和交互
4.2极坐标启发的图形注意
:为了模拟复杂体的三维结构,直观的方法是提供原子在GNN结构中的三维坐标。但是
笛卡尔坐标系下的位置信息对平移和旋转都很敏感
,导致模型在学习复杂表示时泛化能力较差。
我们采用迭代的节点→边缘和边缘→节点交互层,从空间分布的角度融合距离和角度信息
4.2.1极具启发的专注学习架构
:极坐标由径长度r和极角组成.我们开发了一个基于交互的图注意网络,以利用协作框架中节点之间的距离和边之间的角度,如下图所示:
以eij为极轴进行划分,每个原子具有独一无二的极坐标,通过
角域划分
的方法,在边的第一个聚合阶段就可以通过角向注意来考虑复体的空间分布。
此外,
距离因子
也有助于结构建模,揭示空间相关性。原子之间距离的统计分布显示,共价键之间具有共价相互作用的长度主要集中在1-2A的范围内。聚合物中原子间的相互作用随距离的不同而不同,说明原子对的空间关系不同。我们可以建立原子间的距离图:
4.2.2角度导向 节点——>边交互层
:在聚合过程中无法区分不同方向的邻居节点是现有GNN模型的一个缺点。为了克服这一不足,我们采用面向角度的图注意层来整合空间角度信息来更新边缘表示。
4.2.3距离感知 节点——>边交互层
:将角度信息注入到边缘嵌入中后,将另一个空间因素纳入极坐标系统,即距离。
4.3成对交互池约束
:由于图尺寸的限制和不必要的噪声,只包含部分蛋白质结构。然而,蛋白质与配体之间的长程分子间相互作用对结合亲和力有影响。为了捕捉复合物中的长程相互作用(例如碳碳共现相互作用),我们设计了一个感知原子类型的池层,用于蛋白质和配体之间的边缘,生成了原子类型对的邻近相互作用矩阵,并通过额外的自监督训练增强了表示学习过程。
4.4优化结果:
将节点(原子)嵌入加在一起以得到复杂的表示,并使用MLP层作为回归因子来预测蛋白质与配体的结合亲和性
采用L1损耗函数对模型预测的结合亲和函数之间的绝对误差进行优化
整合交互效果,更好地进行复杂表示学习,进一步结和复杂交互约束公式(20),得到总体目标函数如下:
我们在两个标准数据集上进行实验,以调查以下研究问题
:
1.与最新的模型相比,我们模型的性能如何
2.在大规模的低质量数据集训练时,泛化能力
3.空间和交互因素是否有利于预测
4.参数设置(如截止距离和角度域划分)如何影响预测结果?
5.1实验设置
:
5.1.1数据集
:
pdbbind是一个正在开发中的著名公共数据集,它提供了蛋白质配体配合物的三维结合结构,通过实验确定了结合亲和力(参见附录a .2)。在我们的实验中,我们主要使用的是PDBbind v2016数据集,该数据集是最近的工作中使用最频繁的。具体来说,它包括三个重叠子集,即一般子集、精细化子集和核心子集。一般集包含所有的13283个蛋白配体配合物,而精制集中的4057个配合物是从一般集中精选出来的质量更好的配合物。此外,通过仔细的选择过程,具有290个复合物的核心集作为测试的最高质量基准。为了方便起见,我们将细化的子集和核心子集(即3767个复合物)之间的区别称为下面pdbind的细化集。
MAE,平均绝对误差(Mean Absolute Error),观测值与真实值的误差绝对值的平均值。
RMSE:均方根误差(Root-mean-square error), 观测值与真值偏差的平方和与观测次数m比值的平方根。
CSAR-HIQ
是一个额外的基准数据集,包含176和167蛋白配体复合物的两个子集。我们使用这个来自独立来源的外部数据集来进一步评估模型的泛化能力。
5.1.2设置
:我们选择pdbind的精炼集作为我们的主要训练数据,因为完整的通用集和CSAR-HiQ数据集之间有相当多的重叠。我们以9:1的比例将蛋白质配体配合物随机分离,进行训练和验证。对于测试集,我们使用核心集和CSAR-HiQ集,去除精制集中存在的复合物。由于一般集质量较低的数据仍然可以提高模型的性能,我们在较大但质量较差的全一般集上进行了补充实验来分析我们的模型的泛化性。如上所述,由于CSAR-HiQ数据集存在重叠问题,我们只能在核心集上评估性能。接下来,我们从精炼集中随机选择1000个复合物作为验证集。其余的11,993个综合训练场用于训练。
5.1.3评价指标
:使用均方根误差(RMSE)、平均绝对误差(MAE)、皮尔逊相关系数®和标准差(SD)来度量预测误差。
5.1.4比较
:我们将我们提出的模型与比较方法进行比较,包括基于机器学习的方法(LR, SVR, RF-Score),基于cnn的方法(Pafnucy和onionnet),以及GNN模型GraphDTA用于蛋白质配体结合亲和力预测。此外,还比较了各种最先进的基于gnn的模型(SGCN,GNN-DTI,DMPNN,MAT, dimet和CMPNN),这些模型也考虑了分子建模的空间信息,以评价SIGN的性能。
5.2表现评估
:
5.2.1:整体比较
:我们首先在两个基准数据集上比较我们提出的SIGN与基线方法。如表2所示,在五次随机运行中报告了测试性能的四个指标的平均值和标准偏差。总的来说,我们可以观察到SIGN在两个数据集上取得了最好的性能,与pdbind和CSAR-HiQ数据集上的最佳基线模型相比,RMSE分别提高了6.5%和3.9%。
我们提出的SIGN不仅可以获取更全面的角度增强的结构信息,而不仅仅是距离,而且可以通过多任务学习框架处理复杂结构中的交互。因此,SIGN是一种非常有效的蛋白质-配体复合物建模方法,能够准确预测其结合亲和力。
5.2.2:通用性比较
:
具有结合亲和力的基于三维结构的蛋白配体数据越来越多,而精细化集中高质量数据的数量相对较少。因此,利用更多质量较低的数据来提高绩效的能力表明了模型的通用性,这是绩效评价的另一个必要度量。如第5.1.2节所介绍的,我们对pdbind数据集的通用集进行了额外的泛化实验。如图5所示,我们将建议的SIGN与两个训练集上的主要竞争基线进行比较。结果表明,在两种训练条件下,SIGN的预测误差均显著最小。更重要的是,我们的模型在一般集上训练时提高了约8%的性能,并进一步扩大了与基线相比的预测优势。
因此,对于数据量大但质量差的情况,SIGN具有更强的通用性。
5.2.3:空间及交互因素的影响
:
为了验证影响最终性能的因素的有效性,我们在两个基准测试中比较SIGN及其变体
•SIGN-AD 使用没有角度和距离信息的GAT层进行节点边缘交互
•SIGN-Duses 使用没有距离信息的GAT层
•SIGN-A 使用无角度信息的GAT层
•SIGN-I 删除交互损失
正如我们所看到的,所提出的
SIGN优于其他变体,证明了协同处理空间和交互信息的必要性,这对蛋白质-配体结合亲和力预测至关重要
5.2.4:参数分析
:
截止距离
:
复杂图构造中截止距离在3-6倍波长范围内时,均方程误差讨论:截止距离在3-5倍波长范围内变化时,随着截止距离增大误差减小,这说明此范围内更多的空间信息可以用于我们的模型,并有利于更好地学习复杂表示,这导致性能显著改善。
在此之后,过长的切断距离将引入额外的冗余和降低性能。
角域划分
:
为了更深入地了解角度信息在我们的模型中的影响,我们将角度域从1划分到8。可以看出,当角域数为5或6时,模型性能最佳。太细粒度或太粗粒度的划分将导致性能下降。一种可能的解释是,太细粒度的划分无法提供空间中可识别的信息,而太大粒度的角度域包含非常稀疏的原子邻居,这两种情况都对空间信息的学习产生不利影响
本文主要研究如何改进蛋白质与配体结合亲和力的预测。具体来说,我们提出了一个基于gnn的模型,SIGN,来学习蛋白质-配体复合物的表示,利用原子间的细粒度结构和相互作用信息,更好地预测结合亲和力。沿着这条线,我们设计了极向图注意层(PGAL)来整合距离和角度信息,用于三维空间结构建模。此外,为了进一步提高预测性能,我们引入了精心设计的池化过程和交互矩阵的重构学习任务。最后,在两个基准上的实验结果表明了该模型的有效性和通用性.
《用于预测蛋白质-配体结合亲和力的结构感知交互图神经网络》1.文章原标题与链接《Structure-aware Interactive Graph Neural Networks for the Prediction of Protein-Ligand Binding Affinity》原文链接2.简介药物发现通常依赖于蛋白质——配体结合亲和力的成功预测图神经网络(GNNS)能实现更好的亲和预测现有解决方案:**将蛋白质——配体复合物视为拓扑图数据本文改进:结构感知的交互图形神经网络1.
2021SC@SDUSC
论文解读:基于
图
神经网络
与
蛋白质
接触
图
的药靶
亲和力
预测
(一)
Drug–target affinity prediction using graph neural
network and contact maps
计算机辅助药物设计是利用高性能计算机模拟药物设计任务的一个很有前景的研究领域。药物靶标亲和度(DTA)
预测
是计算机辅助药物设计中最重要的一步,可以加快药物开发速度,减少资源消耗。随着深度学习的发展,将深度学习引入到DTA
预测
中,提高DTA
预测
的准确性已成为研究的热点
时间:2021年9月28日
作者:Viplove Arora and Guido Sanguinetti
DOI:https://www.biorxiv.org/content/10.1101/2021.09.28.462100v1
发表期刊:还未定
Abstract
RNA
结合
蛋白(RNAbindingProteins,RBPs)是基因表达的关键协
发现DNA
-
蛋白质
结合
位点(也称为基序发现)是进一步分析转录因子(TF)的基础。 诸如卷积
神经网络
(CNN)和递归
神经网络
(RNN)之类的深度学习算法被引入到主题发现任务中,并取得了最新的性能。 但是,这些方法仍然有局限性,例如忽略大规模测序数据中的上下文信息。 因此,受DNA序列和人类语言之间相似性的启发,本文提出了一种基于自然语言处理方法进行文档分类的,
用于
预测
DNA
-
蛋白质
结合
位点的分层注意力网络。 所提出的方法在真实的ChIP
-
seq数据集上进行了测试,并且与两个经过充分测试的基于深度学习的序列模型DeepBind和Deepsea相比,实验结果显示出了很大的改进。
GraphSite
GraphSite是一款基于深度学习的软件,可对
蛋白质
上的
配
体
结合
位点进行分类。它通过Pytorch和Pytorch
-
geometric实现。在训练期间,将
结合
位点动态转换为包含空间和化学特征的
图
形。然后在绑定袋的
图
形表示上训练定制的
图
形
神经网络
(GNN)分类器。下
图
说明了从装订袋(A)到
图
形(B)的转换:
如果您在工作中使用此仓库,请引用我们的论文:)
Currently under peer review
该数据集由21,125个装订袋组成,这些装袋袋分为14类。有关类的详细信息,请参见。培训需要三个文件:
clusters.yaml :训练数据,包含有关绑定站点的初始聚类信息的信息。训练之前,将多个集群合并为一个类。
dataset.tar.gz :训练数据,包含该项目中的所有绑定站点数据。
pops.tar.gz :训练数据,包含描述可访问表面
Graph Neural Networks: A Review of Methods and Applications
Jie Zhou , Ganqu Cui , Zhengyan Zhang , Cheng Yang, Zhiyuan Liu, Lifeng Wang, Changcheng Li, Maosong Sun
Abstract—Lots of learning tasks req...
Detection Results: VOC2012
intro: Competition “comp4” (train on additional data)
homepage: http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4
Papers
Deep N
验证集,训练集,测试集
(1)PDBbind v2020所有数据真实pKa来自于文件"INDEX_general_PL_data.2020"
(2)所有文件
配
体
的.mol2文件经过openbabel转换成 .pdb,保留转换没有报错的文件
(3)截取pka值分布在2
-
12范围内的数据,考虑在可承受范围内具有已知解离常数或抑制常数的复合物(pKi和 pKd值分布在 2
-
12 范围内)
(4)PDBbind2020 中的复合
体
排除CASF
-
2013,CASF
-
2016数据集的数据
排除CASF
-
2013(161个)重复文件后剩余14860
排除CSAF
-
2016(254个)重复文件后剩余14696
确定数据个数: 训练集:12000个
测试集:2827个
验证集CASF
-
2013:161个
验证集CASF
-
2016:254个
三、文件处理
(1)调用"生成特征.py"文件,生成输入特征文件: "Onion1_Feature_2020_all_train.csv"
"Onion1_Feature_2020_all_valid.csv"
"Onion1_Feature_2013.csv"
"Onion1_Feature_2016.csv"
(2)调用"连接数据和pka.py"文件,连接生成的特征和
蛋白质
配
体
复合物的pka值,生成文件: "Onion1_Feature_2020_all_pka_train.csv"
"Onion1_Feature_2020_all_pka_valid.csv"
(3)调用"训练网络.py",训练得到模型:"bestmodel.h5","logfile.log"
(4)调用"
预测
.py",得到测试集的
预测
结果:"",""
1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!
2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。
3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可直接
用于
毕设、课设、作业等。
欢迎下载,沟通交流,互相学习,共同进步!