DeepDTAF: a deep learning method to predictprotein–ligand binding affinity
期刊:Briefings in Bioinformatics
论文出处:
DeepDTAF: a deep learning method to predict protein–ligand binding affinity | Briefings in Bioinformatics | Oxford Academic
代码链接:
GitHub - KailiWang1/DeepDTAF: a deep learning architecture for protein-ligand binding affinity prediction
配体与蛋白质之间的生物分子识别在药物的发现和开发中起着至关重要的作用。然而,通过实验来确定蛋白质与配体的结合亲和度是非常耗时和费时的。目前,许多预测结合亲和性的计算方法被提出,其中大多数通常需要蛋白质的3D结构,而这些结构往往无法获得。因此,迫切需要能够充分利用序列级特征的新方法来预测蛋白质与配体的结合亲和力,加快药物的发现过程。我们开发了一种新的深度学习方法,名为DeepDTAF,用来预测蛋白质与配体的结合亲和力。
DeepDTAF通过整合局部和全局特征来预测蛋白质配体结合亲和力。由三个独立的模块组成,整个蛋白质模块、局部口袋模块和配体SMILES模块。每个模块的输入用序列残数或化合物的smile串表示。而序列残留信息不仅包含类型,还包含结构性质,即次生结构元素、理化特征等。蛋白质模块和口袋模块分别用于提取全局特征和局部特征。扩展卷积和传统卷积被用来捕获远程和近距离的相互作用。三个模块的卷积层和最大池化层的最终特征被连接在一起,并提供给分类部分。
PDBbind数据库[25]包含了一系列经实验验证的蛋白配体结合亲和力,表达为-logKi, -logKd或-logIC50,来自蛋白质数据库。
由于蛋白质序列、口袋序列和SMILES串的长度不同,为了创建有效的表示形式,需要保证固定的长度。根据图1所示的分布,分别选择蛋白质序列、口袋序列和SMILES序列的固定长度。蛋白质、配体和口袋序列的最大长度分别为4720、472和125。
本研究仅使用一维序列数据进行标签编码,蛋白质、配体及其配合物的三维结构不包含在输入表示中。为了更有效地获取交互信息,我们将基于文本的输入信息分为三个部分:配体表示、蛋白质表示和口袋表示。在之前的大部分工作中,蛋白质序列和配体SMILES的输入表示被证明是预测蛋白质-配体结合亲和力[23]的有效方法。在这里,我们添加了额外的输入信息,可能的结构属性信息和绑定口袋信息,这被证明是有利于亲和力预测的。
使用嵌入层来表示三个模块中128D密集向量的输入。嵌入层通过输入整数编码的输入将稀疏向量转换为密集向量。因此,这些模块分别由(1000,128),(63,128),(150,128)个维度的蛋白质矩阵,口袋矩阵和配体矩阵组成。更具体地说,对于蛋白质模块,考虑到较长的蛋白质序列的长程相互作用,采用了五种不同膨胀速率的一维膨胀卷积[44]。放大卷积层之后是最大池化层,池化层与配体模块相同。然而,在配体模块中,扩张型卷积包含四种不同的扩张率。为了说明这两个模块之间的扩张卷积的区别,在程序中使用扩张卷积A和扩张卷积B来区分它们。对于口袋模块,我们使用了三个增加滤波器数量的一维传统卷积。卷积层由32、64、128个滤波器组成,滤波器的大小为3。其次是最大池化层。最后,将三个模块最大池化层的特征连接在一起,并将其输入到分类部分。
分类部分由三个完全连接(FC)层组成。第一层FC有128个节点,第二层FC有64个节点。每一层之后是速率为0.5的退出层。dropout层随机设置隐藏单元的某些激活为零,以对抗过拟合[45]。最后一个FC层之后是输出层。
卷积层和FC层都包含了PRelu激活函数,用来减少训练时间和避免过拟合。PRelu克服了常用激活函数的不足。函数表达式定义如下:
其中a是一个可学习参数。这里,PRelu在所有输入通道上使用一个参数a。此外,为了最小化损失函数,我们使用自适应力矩优化器AdamW 来优化模型中的参数,最大学习率为0.005,使用0.01的权值衰减来更新模型的权值。我们使用MSELoss作为损失函数,它创建了一个衡量均方误差的准则,在训练过程中使目标和预测之间的差异最小化。
通过增加有效接受野的大小,扩展卷积被用来捕获蛋白质特征和配体SMILES的远程相互作用。蛋白质模块有5层,分别应用3个×3卷积核,其膨胀率分别为1、2、4、8、16。配体模块有四层,分别应用了3个×3卷积核,其扩张速率分别为1,2,4,8。
为了评价我们的模型的性能,均方误差(MAE)和均方根误差(RMSE)作为预测误差的指标。对于预测的和实验测量的亲和值之间的相关性,我们的目标是用均方根误差(R)[50]和nd标准差(SD)进行回归评估。
其中N为蛋白质配体复合体的数量,yi和pi为第i个复合体的实际亲和力和预测亲和力,a和b为实际值和预测值之间的函数线的斜率和截距。作为另一个典型的度量,相容性指数(CI)是指两个随机选择的蛋白质配体复合物按特定顺序的预测值和真实亲和值之间的概率。
CI的定义为:
其中PI为较大的结合亲和力值yi的预测值,pj为较小的结合亲和力值yj的预测值。归一化常数Z是蛋白质-配体复合物的总数。函数h(u)分别为1.0,0.5和0.0当u > 0, u = 0 And u < 0时。CI值越大,模型的预测性能越好。
1G2K二维配体-口袋相互作用示意图:配体键和配体名称NM1用紫色表示。口袋的疏水残基和口袋残基与配体之间的疏水相互作用用红色表示。残基和配体之间的氢键用绿色虚线表示。氢键残基用黄色表示名字用绿色表示 。
为了评估DeepDTAF在预测蛋白质配体结合亲和力方面的性能,我们将DeepDTAF与三种最先进的深度学习模型(DeepDTA[23]、Pafnucy[19]和TopologyNet[21])进行了比较。
DeepDTAF的性能:
DeepDTAF和其他竞争方法在2016核心测试集上的预测精度:
在test105集上DeepDTAF和其他竞争方法的预测精度:
DeepDTAF和其他竞争方法在test71集上的预测精度:
DeepDTAF和DeepDTAF在没有局部特征、物理化学特征、SSEs和测试集上的扩展卷积的预测精度 :
DeepDTAF (A)、DeepDTA (B)、paafnucy (C)和T opologyNet (D)在核心2016测试集上的结合亲和度预测性能。
DeepDTAF (A)、DeepDTA (B)、paafnucy (C)和T opologyNet (D)在test105上预测结合亲和力的性能
DeepDTAF (A)、DeepDTA (B)、paafnucy (C)和T opologyNet (D)在test71集上预测结合亲和力的性能。
2016核心测试集上DeepDTAF和具有真实SSEs的DeepDTAF的RMSE (A)、CI (B)、R (C)的值。
2016年核心测试集中30种蛋白质的亲和值(A和B)与口袋体积(C)和氢键受体数量(D)的关系。预测的亲和度由DeepDTAF生成
Abstract
Motivation
The identification of novel drug–target (DT) interactions is a substantial part of the drug discovery process. Most of the computational methods that have been proposed to predict DT interactions have focused on binary classification, where the goal is to determine whether a DT pair interacts or not. However, protein–ligand interactions assume a continuum of binding strength values, also called binding affinity and predicting this value still remains a challenge. The increase in the affinity data available in DT knowledge-bases allows the use of advanced learning techniques such as
deep
learning architectures in the prediction of binding affinities. In this study, we propose a
deep
-learning based model that uses only sequence information of both targets and drugs to predict DT interaction binding affinities. The few studies that focus on DT binding affinity prediction use either 3D structures of protein–ligand complexes or 2D features of compounds. One novel approach used in this work is the modeling of protein sequences and compound 1D representations with convolutional neural networks (CNNs).
论文题目:A machine learning approach to predicting protein–ligand binding affinity with applications to molecular docking
scholar 引用:289
发表时间:2010.03
发表刊物:Bioinformatics
作者:Pedro J. Ballester, ...
蛋白质
-
配体
模拟一般过程:
获取
蛋白质
结构文件、分子对接后的
配体
结构文件→ 准备
蛋白质
拓扑 → 选择力场 → 手动小分子拓扑→ 添加盒子、溶剂 → 添加离子 → 能量最小化 → 温度、压力平衡 → 开始模拟 → 分析结果
软件:gromacs2021
1.准备
蛋白质
结构文件、分子对接后的
配体
结构文件
2.准备拓扑、选择力场
3.手动小分子拓扑
4.添加盒子、溶剂
5.添加离子
6.能量最小化
7.温度、压.......
动机:药物靶标对相互作用的研究是新药物过程的重要过程,此前大多数研究集中于二分类,即药物-靶标是是相互作用,
但是
蛋白质
配体
的
结合
亲和力
是连续值,
预测
该值是一个难题。
之前也少数研究,是基于
蛋白质
-
配体
复合物的3D就或化合物的2D特征
方法
:本实验采用
蛋白质
和化合物的原始
一维
序列进行基于CNN的建模进行绑定
亲和力
的
预测
采用回归模型,能够
预测
相互作用强度的近似值×
蛋白质
-
配体
评分:×
非机器学习
方法
:随机森林 --->失败,推测原因,...
1.文章原标题与链接
《Structure-aware Interactive Graph Neural Networks for the Prediction of Protein-Ligand Binding Affinity》
药物发现通常依赖于
蛋白质
——
配体
结合
亲和力
的成功
预测
图神经网络(GNNS)能实现更好的亲和
预测
现有解决方案:**将
蛋白质
——
配体
复合物视为拓扑图数据
本文改进:结构感知的交互图形神经网络
from collections import OrderedDict
# from keras.preprocessing.sequence import pad_sequences
蛋白质
结构
预测
是生物信息学重要的研究领域之一。目前,基于
深度学习
的
蛋白质
结构
预测
方法
已经取得了很大的进展。
一种
常见的基于
深度学习
的
蛋白质
结构
预测
方法
是使用神经网络模型,通过学习已知的
蛋白质
结构和序列之间的关系,
预测
未知
蛋白质
的结构。这种
方法
的关键在于选择合适的神经网络模型和训练算法,以便能够有效地从数据中提取有用的特征并进行结构
预测
。
另外,还有一些其他的基于
深度学习
的
蛋白质
结构
预测
方法
,如使用卷积神经网络 (CNN) 对
蛋白质
序列进行编码,再使用递归神经网络 (RNN) 对编码后的序列进行建模,以及使用图神经网络 (GNN) 对
蛋白质
结构进行建模等等。这些
方法
都取得了一定的成功。
总之,基于
深度学习
的
蛋白质
结构
预测
方法
是一个非常有前途的研究领域,可以为生物学和药物研发等领域提供很多有用的信息。
CSDN-Ada助手:
ResNetKhib:一种通过迁移学习预测赖氨酸2-羟基异丁基化位点的新型细胞类型特异性工具
CSDN-Ada助手:
CircuitNet: A Generic Neural Network to Realize Universal Circuit Motif Modeling
CSDN-Ada助手:
DeepDTAF:一种预测蛋白质配体结合亲和力的深度学习方法
qq_46283976:
DeepDTAF:一种预测蛋白质配体结合亲和力的深度学习方法
hero_77: