相关文章推荐
重情义的甘蔗  ·  js如何获取点击li标签里的值-百度经验·  1 年前    · 
愤怒的显示器  ·  sql ...·  1 年前    · 
长情的山羊  ·  一文彻底搞懂安卓WebView白名单校验 ...·  2 年前    · 
坚韧的红薯  ·  如何使iframe中的链接都在新窗口打开·  2 年前    · 
Code  ›  Brief Bioinform|FP-GNN:基于分子指纹和图神经网络的分子性质预测模型开发者社区
神经网络模型 指纹
https://cloud.tencent.com/developer/article/2165422
率性的玉米
1 年前
作者头像
智药邦
0 篇文章

Brief Bioinform|FP-GNN:基于分子指纹和图神经网络的分子性质预测模型

前往专栏
腾讯云
开发者社区
文档 意见反馈 控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
发布
首页
学习
活动
专区
工具
TVP 最新优惠活动
返回腾讯云官网
社区首页 > 专栏 > 智药邦 > Brief Bioinform|FP-GNN:基于分子指纹和图神经网络的分子性质预测模型

Brief Bioinform|FP-GNN:基于分子指纹和图神经网络的分子性质预测模型

作者头像
智药邦
发布 于 2022-11-16 17:36:14
867 0
发布 于 2022-11-16 17:36:14
举报

2022年9月17日,华南理工大学王领老师团队[1]在Briefings in Bioinformatics上发表文章。作者提出了FP-GNN,一种基于分子指纹(fingerprint,FP)和图神经网络(graph neural networks,GNN)的分子性质预测模型,结合了分子指纹表示和基于图神经网络的分子图表示。

在药物性质预测、药物-靶标关联预测和药物-疾病关联预测这三类任务、多个药物发现相关的数据集上大量实验表明,FP-GNN有效地预测了分子性质。作者收集和整理的大量数据集,以及FP-GNN的代码,已在其GitHub上开源:

https://github.com/idrugLab/FP-GNN

背景

准确预测分子特性,如物理化学和生物活性特性,以及ADMET(absorption, distribution, metabolism, excretion and toxicity,也就是药物分子的吸收、分布、代谢、排泄和毒性)特性,仍然是分子设计的基本挑战,尤其是对药物设计和发现而言。本文提出了一种新的深度学习架构,称为FP-GNN,结合并同时从分子图和指纹中学习分子特性信息。FP-GNN不仅能够刻画原子节点的局部特征,而且通过将节点信息传递到邻域节点,和在特定任务中使用注意力机制的远程节点,有效学习到分子的全局特征。通过结合分子指纹,模型的鲁棒性得以进一步增强。

方法

对于基于图的分子表示,分子的原子和键被视为节点和边。图神经网络通过聚合邻域节点信息,用于分子图表示的学习。如图1所示,FP-GNN采用图注意力网络(graph attention networks,GAT)[2]学习分子图表示。GAT将多头自注意力模型推广到图数据上,通过掩膜自注意力机制,自适应地为邻域节点中的不同节点分配不同的权重,在建模图结构上取得了更大的普适性和更优秀的结果。

本文综合使用了三种指纹,MACCS指纹,药效团ErG指纹和PubChem指纹,来描述分子特征。MACCS指纹是一种基于子结构密钥的指纹,包含大多数原子性质,化学键不同拓扑结构的性质和原子邻域,对药物发现有重要意义。PubChem指纹也是基于子结构密钥的指纹,可以更广泛地涵盖各种化学结构。药效团ErG指纹是使用扩展还原图(extended reduce graph,ErG)[3]方法的2D药效团指纹,并应用药效团类型节点描述对分子进行编码。三种指纹被拼接输入全连接层中进行训练。

在分别得到基于GNN的分子表示和基于指纹的分子表示之后,FP-GNN将这两种表示进行拼接,输入全连接层中,以输出预测结果。在本研究中,使用了Hyperopt Python包[4]对超参数进行贝叶斯优化,包括GNN的dropout率、多头注意力模型的头数、注意力层的隐藏层大小、指纹网络的隐藏层大小和dropout率等。

图1. ABCD-GGNN模型图

结果

本文使用三类基准数据集对FP-GNN模型的性能进行了广泛评估。一是使用由[5]整理的13个与药物发现相关的性质预测数据集测试FP-GNN的性能,包括3个物理化学数据集(ESOL,FreeSolv和Lipophilicity),6个生物活性和生物物理数据集(MUV,HIV、BACE、PDBbind-C、PDBbund-R和PDBbind-F),以及4个生理学和毒理学数据集(BBBP,Tox21,SIDER和ClinTox)。二是使用化合物-靶标数据集LIT-PCBA[6]测试FP-GNN的性能,该数据集包括15个靶标上7844个确认为活性的化合物,以及407381个确认为非活性的化合物。三是使用14个乳腺细胞系表型筛查数据集[7]来评估FP-GNN预测疾病相关化合物分子的能力。这些任务包括了回归任务和分类任务,回归任务通过均方根误差进行评估(RMSE),而分类任务由ROC曲线(ROC-AUC)或PR曲线(PRC-AUC)下的面积进行评估。

在药物性质预测任务中,FP-GNN与MoleculeNet[5], ChemProp[8], Attentive FP[9], HRGCN[10]和XGBoost进行了对比。FP-GNN在多个分类任务的ROC-AUC指标上取得最高值,在多个回归任务的RMSE上取得最低值。

表1:不同方法在药物性质预测上的对比

在预测药物在不同靶标上是否有活性的二分类预测任务上,FP-GNN与朴素贝叶斯(NB),支持向量机(SVM),随机森林(RF),XGBoost,以及深度神经网络(DNN),图卷积网络(GCN),图注意力网络(GAT)等深度学习模型进行了对比。FP-GNN的ROC-AUC值超越了大多数模型。

图2. 不同方法在药物靶标活性预测上的对比

在预测药物在乳腺细胞系上是否具有抗癌活性的任务中,FP-GNN与Attentive FP[9], GAT, GCN, MPNN(消息传递神经网络)和XGBoost进行了对比,在多个分类任务的ROC-AUC指标上取得最高值。

表2. 不同方法在药物疾病关联预测上的对比

总结

在本研究中,作者提出了一种称为FP-GNN的神经网络,将基于分子图的图注意力网络与基于分子指纹的全连接网络耦合起来,生成更全面的分子表征。在药物性质预测、药物在不同靶标上的活性预测、药物在不同细胞系中的抗癌活性预测这三种任务的多个公共数据集上的性能表明,FP-GNN的模型表现出色。

参考资料

[1] Cai et al., FP-GNN: a versatile deep learning architecture for enhanced molecular property prediction, Brief Bioinform, 2022

[2] Velickovic et al., Graph attention networks, in ICLR, 2018

[3] Stief et al., ErG: 2D pharmacophore descriptions for scaffold hopping. J Chem Inf Model, 2006

[4] Bergstra et al., Making a Science of Model Search: Hyperparameter Optimization in Hundreds of Dimensions for Vision Architectures, in ICML, 2013

[5] Wu et al., MoleculeNet: a benchmark for molecular machine learning, Chem Sci, 2018

[6] Nguyen et al., LIT-PCBA: an unbiased data set for machine learning and virtual screening, J Chem Inf Model, 2020

[7] He et al., Machine learning enables accurate and rapid prediction of active molecules against breast cancer cells, Front Pharmacol, 2021

[8] Yang et al., Analyzing learned molecular representations for property prediction, J Chem Inf Model, 2019

[9] Xiong et al. Pushing the boundaries of molecular representation for drug discovery with the graph attention mechanism, J Med Chem, 2020

[10] Wu et al., Hyperbolic relational graph convolution networks plus: a simple but highly efficient QSAR modeling method, Brief Bioinform, 2021

--------- End ---------

本文参与 腾讯云自媒体分享计划 ,分享自微信公众号。
原始发表:2022-10-17 ,如有侵权请联系 cloudcommunity@tencent.com 删除
数据结构
神经网络
机器学习
深度学习
人工智能

本文分享自 智药邦 微信公众号, 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

数据结构
神经网络
机器学习
深度学习
人工智能
评论
登录 后参与评论
0 条评论
热度
最新
登录 后参与评论
关于作者
智药邦
0
文章
0
累计阅读量
0
获赞
前往专栏
领券
  • 社区

    • 专栏文章
    • 阅读清单
    • 互动问答
    • 技术沙龙
    • 技术视频
    • 团队主页
    • 腾讯云TI平台
  • 活动

    • 自媒体分享计划
    • 邀请作者入驻
    • 自荐上首页
    • 技术竞赛
  • 资源

    • 技术周刊
    • 社区标签
    • 开发者手册
    • 开发者实验室
  • 关于

    • 社区规范
    • 免责声明
    • 联系我们
    • 友情链接

腾讯云开发者

扫码关注腾讯云开发者

扫码关注腾讯云开发者

领取腾讯云代金券

热门产品

  • 域名注册
  • 云服务器
  • 区块链服务
  • 消息队列
  • 网络加速
  • 云数据库
  • 域名解析
  • 云存储
  • 视频直播

热门推荐

  • 人脸识别
  • 腾讯会议
  • 企业云
  • CDN加速
  • 视频通话
  • 图像分析
  • MySQL 数据库
  • SSL 证书
  • 语音识别

更多推荐

  • 数据安全
  • 负载均衡
  • 短信
  • 文字识别
  • 云点播
  • 商标注册
  • 小程序开发
  • 网站监控
  • 数据迁移

Copyright © 2013 - 2023 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有

深圳市腾讯计算机系统有限公司 ICP备案/许可证号: 粤B2-20090059 深公网安备号 44030502008569

腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287

问题归档 专栏文章 快讯文章归档 关键词归档 开发者手册归档 开发者手册 Section 归档

Copyright © 2013 - 2023 Tencent Cloud.

All Rights Reserved. 腾讯云 版权所有

登录 后参与评论
 
推荐文章
重情义的甘蔗  ·  js如何获取点击li标签里的值-百度经验
1 年前
愤怒的显示器  ·  sql server创建触发器时,执行语句,提示“列名sno无效”。_触发器列名无效_啥呀啥呀的博客-CSDN博客
1 年前
长情的山羊  ·  一文彻底搞懂安卓WebView白名单校验 - FreeBuf网络安全行业门户
2 年前
坚韧的红薯  ·  如何使iframe中的链接都在新窗口打开
2 年前
今天看啥   ·   Py中国   ·   codingpro   ·   小百科   ·   link之家   ·   卧龙AI搜索
删除内容请联系邮箱 2879853325@qq.com
Code - 代码工具平台
© 2024 ~ 沪ICP备11025650号