相关文章推荐
老实的橙子  ·  jquery ...·  3 周前    · 
痴情的苹果  ·  BufferedReader如何一次读取所有 ...·  5 月前    · 
斯文的烈马  ·  园艺林学学院“迎八方学子,筑一流梦想”系列夏 ...·  12 月前    · 
聪明伶俐的小马驹  ·  使用Excel ...·  1 年前    · 
胡子拉碴的牛肉面  ·  【sana合集】红毛蓝毛偶像Sana百度云 ...·  1 年前    · 
Code  ›  Adv Sci | 首创引入蛋白动态信息的AI模型,高效预测药物-蛋白亲和力开发者社区
预测模型 蛋白质结构 蛋白质
https://cloud.tencent.com/developer/article/2165418?areaSource=106005.13
朝气蓬勃的仙人掌
1 年前
作者头像
智药邦
0 篇文章

Adv Sci | 首创引入蛋白动态信息的AI模型,高效预测药物-蛋白亲和力

前往专栏
腾讯云
开发者社区
文档 意见反馈 控制台
首页
学习
活动
专区
工具
TVP
文章/答案/技术大牛
发布
首页
学习
活动
专区
工具
TVP
返回腾讯云官网
社区首页 > 专栏 > 智药邦 > Adv Sci | 首创引入蛋白动态信息的AI模型,高效预测药物-蛋白亲和力

Adv Sci | 首创引入蛋白动态信息的AI模型,高效预测药物-蛋白亲和力

作者头像
智药邦
发布 于 2022-11-16 17:35:07
224 0
发布 于 2022-11-16 17:35:07
举报

2022年10月6日,德睿智药与西湖大学、厦门大学科研团队共同开发的 首个基于蛋白质动态信息的预训练模型ProtMD, 发表于顶级期刊Advanced Science(Impact Factor=17.5)。

该研究首创在预训练模型中引入蛋白质动态时空信息,在药物-蛋白亲和力预测任务等多个下游任务的表现上大幅超越目前最优模型。该模型可辅助药物化学专家更加精准的筛选出高活性小分子,从而加速临床前研发。该研究是近年来药物-蛋白亲和力预测领域发表的 影响因子最高 的论文之一。

基于靶点的药物筛选是基于功能蛋白进行的亲和力或功能筛选,因此获得有足够活性的小分子是实现药物筛选成功的关键要素之一,准确预测小分子和靶蛋白之间的结合亲和力是药物开发过程中的一个重大挑战。

在此项研究中,德睿智药将团队制药经验与AI技术深度融合。基于对蛋白质结构多样性的深入理解,团队构建了具有结构代表性的蛋白质“小样本”数据集,进行蛋白质动力学模拟后,获得其动态信息,并以此为基础建立AI预训练模型。该模型表现超越以往基于蛋白质3D静态结构信息的AI模型,达到目前最优,为药物-蛋白亲和力筛选提供了强有力的工具。

国际人工智能学界权威,IEEE Fellow,西湖大学人工智能讲席教授李子青( Stan Z. Li )指出:“传统的药物蛋白结合理论基于静态蛋白构象假设,而实际上蛋白构象在药物结合之前和之后发生了改变。此研究是预测蛋白-药物结合动态的一个尝试, 在预训练模型中首次引入蛋白质时空动态信息,并设计了等变图匹配网络,以学习药物亲和力在蛋白构象几何形变条件下的变化,更准确地完成药物-蛋白亲和力预测这一核心任务,从而提升AI药物设计的有效性。这个工作为该领域研究提供了一个新的benchmark。”

1

ProtMD框架

图1. ProtMD框架示意图

ProtMD有两个专门设计的自监督学习任务:一个是基于Prompt的去噪生成预测,另一个是Snapshot Ordering。模型在两个下游任务上通过微调和线性探测进行验证,其中结合亲和力预测是一个回归问题,Ligand Efficacy Prediction[2,3]是一个分类问题。

2

预训练任务设计

2.1 预训练数据集

为了获取无标签的蛋白质时空信息进行预训练,德睿智药团队根据先前蛋白质研究经验,从PDB蛋白质数据库(RCSB PDB [https://www.rcsb.org] )共计57651个人类蛋白结构中选取了具有结构代表性的数十个蛋白质结构,使用Molecule Dance平台对这数十个蛋白质进行分子动力学模拟,获得数TB蛋白质空间动态信息用于下步预训练。

2.2 Prompt-based Denoising Conformation Generative Task

生成式自监督学习是无监督预训练的一个典型任务。为了更好地捕获构象中原子级的信息,提出了基于提示的去噪生成预测自监督任务。该任务要求模型根据当前构象产生未来构象。与朴素的生成式自监督学习不同,团队在模型中添加了一个时间序列提示Prompt来调节和控制源构象和目标构象之间的时间间隔,这使分子编码器能够捕获MD轨迹内的短期和长期依赖性,生成大于等于一步之后的构象。除此之外,额外的噪声被注入到构象中增加了该自监督生成任务的难度以防止模型过拟合。

2.3 Snapshot Ordering Prediction

此前已有大量研究证实,每种构象的形状和表面都带有了解潜在分子相互作用的关键信息。然而,只利用基于提示的去噪生成任务是建立在原子水平上的,无法有效捕获构象级全局信息。为了获取构象级别的信息,团队设计了一个快照排序任务。具体来说,通过将一组密切相关的构象排序为连贯的子轨迹,教会模型从全局角度理解它们的依赖关系。

目前预训练模型参数量越来越大,如BERT-base参数个数达1.1亿个[1],使用此类模型面临着较大的性能瓶颈。为加速ProtMD的训练及推理过程、便于后续工业级大规模使用,我们训练了两个版本的ProtMD,即仅有1万参数的轻量级版本,以及有522万参数的完整版本。

3

实验结果

3.1 药物亲和力预测

在药物-蛋白亲和力预测任务上,ProtMD仅有1万参数的轻量级版本表现已超过以往最优(SOTA)模型,在522万参数版本达到1.367的RMSD和最佳的Pearson和Spearman系数,较SOTA模型提升5%表现。轻量级版本的参数个数比以往各类模型小 50倍 以上,ProtMD的更优表现表明了模型的高学习效率,引入蛋白质时空动态信息可显著提升药物亲和力预测效果。

3.2 Ligand Efficacy Prediction

在Ligand Efficacy Prediction[2,3]任务上,ProtMD 522万个参数版本AUPRC达到0.724, 较SOTA模型提升14%表现。

4

总结

ProtMD的研发为基于蛋白的机器学习预训练模型研发提供了新方向,证明了蛋白质动态时空信息在蛋白-小分子亲和力预测上的重要性。既由该底层原理上的突破,该模型预测精度达到“同类最优”。ProtMD的工业级版本可大幅提高药物亲和力预测与虚拟筛选效率。

原文链接 :https://doi.org/10.1002/advs.202203796

参考文献 :

1.Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

2.Townshend R J L, Vögele M, Suriana P, et al. Atom3d: Tasks on molecules in three dimensions[J]. arXiv preprint arXiv:2012.04035, 2020.

3.Friesner, R. A., Banks, J. L., et al. (2004). Journal of Medicinal Chemistry, 47(7), 1739–1749.

既往报道 :

· Nature BME | AI实现「大海捞针」:虚拟筛选发现全新的线粒体自噬诱导剂对抗阿尔茨海默症

· 德睿智药AI辅助设计药物管线8个月内进入IND-Enabling Studies阶段

关于德睿智药

德睿智药(MindRank)是一家专注于创新药物研发的AI科技公司,拥有一站式AI驱动的药物发现平台Molecule Pro™️。公司聚焦于创新型及难成药靶点新药研发,其AI医药解决方案曾被Deep Pharma Intelligence评为“2018-2020全球最重要的11个AI药物研发突破性成就之一”。核心团队来自国内外头部药企及国际头部AI制药公司,科研方面由剑桥大学副院长院士领衔。公司首条自研AI辅助设计GPCR靶点药物管线在8个月内已进入IND-Enabling Studies阶段。2021年9月,成功为上市药企交付AI辅助设计别构抑制剂PCC分子。

--------- End ---------

本文参与 腾讯云自媒体分享计划 ,分享自微信公众号。
原始发表:2022-10-14 ,如有侵权请联系 cloudcommunity@tencent.com 删除
监督学习

本文分享自 智药邦 微信公众号, 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

监督学习
评论
登录 后参与评论
0 条评论
热度
最新
登录 后参与评论
关于作者
智药邦
0
文章
0
累计阅读量
0
获赞
前往专栏
  • 社区

    • 专栏文章
    • 阅读清单
    • 互动问答
    • 技术沙龙
    • 技术视频
    • 团队主页
    • 腾讯云TI平台
  • 活动

    • 自媒体分享计划
    • 邀请作者入驻
    • 自荐上首页
    • 技术竞赛
  • 资源

    • 技术周刊
    • 社区标签
    • 开发者手册
    • 开发者实验室
  • 关于

    • 社区规范
    • 免责声明
    • 联系我们
    • 友情链接

腾讯云开发者

扫码关注腾讯云开发者

扫码关注腾讯云开发者

领取腾讯云代金券

热门产品

  • 域名注册
  • 云服务器
  • 区块链服务
  • 消息队列
  • 网络加速
  • 云数据库
  • 域名解析
  • 云存储
  • 视频直播

热门推荐

  • 人脸识别
  • 腾讯会议
  • 企业云
  • CDN加速
  • 视频通话
  • 图像分析
  • MySQL 数据库
  • SSL 证书
  • 语音识别

更多推荐

  • 数据安全
  • 负载均衡
  • 短信
  • 文字识别
  • 云点播
  • 商标注册
  • 小程序开发
  • 网站监控
  • 数据迁移

Copyright © 2013 - 2023 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有

深圳市腾讯计算机系统有限公司 ICP备案/许可证号: 粤B2-20090059 深公网安备号 44030502008569

腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287

问题归档 专栏文章 快讯文章归档 关键词归档 开发者手册归档 开发者手册 Section 归档

Copyright © 2013 - 2023 Tencent Cloud.

All Rights Reserved. 腾讯云 版权所有

登录 后参与评论
 
推荐文章
老实的橙子  ·  jquery 水平方向和垂直方向滑动隐藏和显示 渐渐 隐藏和显示_jquery中设置div中横线和纵向滚动条显示的高度与透明度-CSDN博客
3 周前
痴情的苹果  ·  BufferedReader如何一次读取所有 - CSDN文库
5 月前
斯文的烈马  ·  园艺林学学院“迎八方学子,筑一流梦想”系列夏令营举办_人才培养_新闻_南湖新闻网
12 月前
聪明伶俐的小马驹  ·  使用Excel VBA将范围作为带有图片的表格发送到电子邮件正文
1 年前
胡子拉碴的牛肉面  ·  【sana合集】红毛蓝毛偶像Sana百度云 地下偶像红毛怎么了剧情【临泉动漫吧】_百度贴吧
1 年前
今天看啥   ·   Py中国   ·   codingpro   ·   小百科   ·   link之家   ·   卧龙AI搜索
删除内容请联系邮箱 2879853325@qq.com
Code - 代码工具平台
© 2024 ~ 沪ICP备11025650号