张贵军, 侯铭桦, 彭春祥, 刘俊. 多结构域蛋白质结构预测方法综述[J]. 电子科技大学学报, 2022, 51(6): 820-829. doi: 10.12178/1001-0548.2022132 引用本文: 张贵军, 侯铭桦, 彭春祥, 刘俊. 多结构域蛋白质结构预测方法综述[J]. 电子科技大学学报, 2022, 51(6): 820-829. doi: 10.12178/1001-0548.2022132 ZHANG Guijun, HOU Minghua, PENG Chunxiang, LIU Jun. An Overview of Multi-Domain Protein Structure Prediction Methods[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(6): 820-829. doi: 10.12178/1001-0548.2022132 Citation: ZHANG Guijun, HOU Minghua, PENG Chunxiang, LIU Jun. An Overview of Multi-Domain Protein Structure Prediction Methods[J]. Journal of University of Electronic Science and Technology of China , 2022, 51(6): 820-829. doi: 10.12178/1001-0548.2022132
基金项目: 国家自然科学基金面上项目(62173304);国家科技创新2030“新一代人工智能”重大项目(2021ZD0150100);浙江省自然科学基金重点项目(LZ20F030002)
人工智能首次精确预测蛋白质三维结构入选《Science》杂志2020年十大科学突破,成为结构生物信息学领域的前沿方向。在自然界中,绝大多数单链蛋白中包含多个结构域。从生物学意义上来讲,结构域间缔结与协作对实现多个相关的功能至关重要。首先,介绍了蛋白质结构的预测技术发展及重要国际赛事CASP;其次,以单域蛋白结构预测方法、多域蛋白结构组装方法以及端到端的单体蛋白预测方法3部分对一些具有代表性的方法进行了简要阐述;然后,介绍了蛋白质结构预测研究中常用的数据库和模型质量评估指标,并比较了不同预测方法的性能;最后,分析总结了当前蛋白质结构预测方法的发展趋势,并对该领域未来的研究方向进行了展望。 人工智能 /  多结构域 /  模型质量评估 /  蛋白质结构预测 Abstract: Artificial intelligence accurately predicted the three-dimensional structure of proteins for the first time, which was selected as one of the top ten scientific breakthroughs in 2020 by "Science" magazine, and became a frontier direction in the field of structural bioinformatics. Most single-chain proteins in nature contain multiple domains. In a biological sense, inter-domain association and cooperation are crucial to achieve multiple related functions. This paper firstly introduces the development of protein structure prediction and the critical assessment of structure prediction (CASP); Secondly, some representative methods are briefly described in three parts: single-domain protein structure prediction methods, multi-domain protein structure assembly methods and end-to-end protein structure prediction methods; The commonly used databases and model quality evaluation indicators in protein structure prediction are then demonstrated, and the performances of the representative prediction methods are compared. Finally, we conclude with a brief overview of the future challenges and outstanding questions in the field. Key words: artificial intelligence /  multi-domain /  model quality evaluation /  protein structure prediction
基金项目: 国家自然科学基金面上项目(62173304);国家科技创新2030“新一代人工智能”重大项目(2021ZD0150100);浙江省自然科学基金重点项目(LZ20F030002)
作者简介: 张贵军(1974 − ),男,博士,教授,主要从事结构生物信息学、计算智能与机器学习等方面的研究

通讯作者: 张贵军,E-mail: zgj@zjut.edu.cn
  • 收稿日期 : 2022-05-07
  • 修回日期 : 2022-07-30
  • 网络出版日期 : 2022-11-28
  • 刊出日期 : 2022-11-25
  • 中图分类号: TP391

  • 人工智能 /
  • 多结构域 /
  • 模型质量评估 /
  • 蛋白质结构预测
  • 摘要: 人工智能首次精确预测蛋白质三维结构入选《Science》杂志2020年十大科学突破,成为结构生物信息学领域的前沿方向。在自然界中,绝大多数单链蛋白中包含多个结构域。从生物学意义上来讲,结构域间缔结与协作对实现多个相关的功能至关重要。首先,介绍了蛋白质结构的预测技术发展及重要国际赛事CASP;其次,以单域蛋白结构预测方法、多域蛋白结构组装方法以及端到端的单体蛋白预测方法3部分对一些具有代表性的方法进行了简要阐述;然后,介绍了蛋白质结构预测研究中常用的数据库和模型质量评估指标,并比较了不同预测方法的性能;最后,分析总结了当前蛋白质结构预测方法的发展趋势,并对该领域未来的研究方向进行了展望。

    Keywords:
  • artificial intelligence /
  • multi-domain /
  • model quality evaluation /
  • protein structure prediction
  • Abstract: Artificial intelligence accurately predicted the three-dimensional structure of proteins for the first time, which was selected as one of the top ten scientific breakthroughs in 2020 by "Science" magazine, and became a frontier direction in the field of structural bioinformatics. Most single-chain proteins in nature contain multiple domains. In a biological sense, inter-domain association and cooperation are crucial to achieve multiple related functions. This paper firstly introduces the development of protein structure prediction and the critical assessment of structure prediction (CASP); Secondly, some representative methods are briefly described in three parts: single-domain protein structure prediction methods, multi-domain protein structure assembly methods and end-to-end protein structure prediction methods; The commonly used databases and model quality evaluation indicators in protein structure prediction are then demonstrated, and the performances of the representative prediction methods are compared. Finally, we conclude with a brief overview of the future challenges and outstanding questions in the field.

    张贵军, 侯铭桦, 彭春祥, 刘俊. 多结构域蛋白质结构预测方法综述[J]. 电子科技大学学报, 2022, 51(6): 820-829. doi: 10.12178/1001-0548.2022132 引用本文: 张贵军, 侯铭桦, 彭春祥, 刘俊. 多结构域蛋白质结构预测方法综述[J]. 电子科技大学学报, 2022, 51(6): 820-829. doi: 10.12178/1001-0548.2022132 ZHANG Guijun, HOU Minghua, PENG Chunxiang, LIU Jun. An Overview of Multi-Domain Protein Structure Prediction Methods[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(6): 820-829. doi: 10.12178/1001-0548.2022132 Citation: ZHANG Guijun, HOU Minghua, PENG Chunxiang, LIU Jun. An Overview of Multi-Domain Protein Structure Prediction Methods[J]. Journal of University of Electronic Science and Technology of China , 2022, 51(6): 820-829. doi: 10.12178/1001-0548.2022132 1994年,美国马里兰大学的Moult课题组创立了世界性的蛋白质结构预测竞赛CASP(critical assessment of structure prediction),进行两年一度的盲评估,以促进研究、监控进展,并确立蛋白质结构预测的最新水平 [ 2 ] 。CASP测试蛋白分为基于模板(template based modeling, TBM)和无模板(free modeling, FM)两类。TBM类可以将PDB(protein data bank)结构数据库中的已有实验结构作为模板进行同源建模,其建模精度与实验测定水平相仿 [ 2 ] 。相对而言,缺乏同源模板的FM类蛋白难度更大,更具有挑战。受限于能量模型不精确性和构象空间采样瓶颈 [ 3 ] ,从CASP5(2002年)到CASP10(2012年)10年间,FM预测方法陷入了长期的发展停滞期 [ 4 ] 。2014年,共进化方法被引入CASP11接触预测组,接触预测准确性出现了进步的迹象 [ 5 ] 。至此,结合共进化接触预测的构象采样方法成为FM预测的主流。经过两年的发展,尤其是深度卷积残差网络ResNet的首次应用 [ 6 ] ,在2016年的CASP12中,接触预测精度提升至47% [ 7 ] 。2018年的CASP13中,通过将接触拓展为残基间距离,接触残基对的预测精度达到70% [ 7 - 8 ] 。在蛋白质接触图及距离深度学习预测技术进步的推动下 [ 5 ] ,在CASP13中,FM类目标蛋白的平均GDT_TS(global distance test total score)超过了60。

    在2018年的CASP13中,Google的DeepMind团队凭借其开发的AlphaFold在43个FM类目标蛋白中拿到25个单项最佳模型,并获得总分第一名 [ 8 ] 。在2020年的CASP14中,Google的DeepMind团队开发的第二代人工智能(artificial intelligence, AI)蛋白质结构预测程序AlphaFold2 [ 9 ] ,在中等难度目标蛋白上基本达到实测测定结构精度。CASP评委Andrei Lupas教授在接受《自然》杂志的采访中讲道 [ 10 ] :“它将改变医学、改变研究、改变生物工程、改变所有!”。随后,华盛顿大学Baker课题组开发了一种新的AI蛋白质结构预测三轨网络RoseTTAFold [ 11 ] ,预测精度接近AlphaFold2。由于AlphaFold2和RoseTTAFold在蛋白质结构预测领域的突破,蛋白质结构预测算法被《Nature Methods》杂志评选为“2021年度方法”。AI预测蛋白质结构显然是结构生物信息学领域的重大突破,但是正如著名生物学家、斯坦福大学Brunger教授在《Science》杂志上发表的论文中指出,蛋白质结构预测问题距离“解决”仍然很远 [ 12 ]

    通过对蛋白质组学数据的分析,2003年剑桥大学Chothia等人在《Science》杂志发文指出:自然界生物中大约有超过80%的真核蛋白和67%的原核蛋白含有多个结构域 [ 13 ] 。2019年8月本课题组对PDB库的统计结果也表明 [ 14 ] ,在17多万个实验结构测定蛋白中共包含了608044个单链结构,其中只有34.7%的单链为多域蛋白。考虑到PDB库中存储的蛋白结构均为实验测定这一事实,可以得到一个明显的结论:由于X衍射、NMR(nuclear magnetic resonance)及冷冻电镜等结构生物学实验测定手段的技术瓶颈,多域蛋白结构实验测定速度远远低于单域蛋白。而AlphaFold2和RoseTTAFold预测过程中不但使用了同源序列信息,还包括了结构模板信息。这意味着对于多结构域全长链蛋白,当无法检测到全长链模板时,或者每个结构域具有不同的同源序列时,直接通过单结构域的方式预测全长链多结构域蛋白效果并不理想 [ 7 ]

    蛋白质结构预测一直受到计算生物学领域和计算智能社区的高度关注,是一个前沿研究课题。其中具有代表性的有:张阳课题组开发的I-TASSER系列 [ 15 ] 连续八届(CASP7~CASP14)在CAS服务器组排名第一;谷歌DeepMind开发的AlphaFold系列自从2018年首次进入结构预测领域后,连续两届在CASP人工组排名第一 [ 8 ] ;Baker课题组尽管在过去几年中工作重点已投入到从头设计蛋白质,然而,开发的Rosetta系列 [ 16 - 17 ] 二十多年来在结构预测领域得到了“教科书”式的广泛应用,2020年CASP14中人工组排名仅次于AlphaFold2;许锦波课题组第一次将ResNet应用在蛋白质接触预测 [ 6 ] ,真正推动了深度学习在蛋白质残基接触、残基间距离的应用,是蛋白质预测领域发展的里程碑,在2018年的CASP13中,许锦波团队开发的RaptorX系列在Contact组名列前茅 [ 7 ]

    这类方法的基本思想是首先建立蛋白质主链粗粒度和全原子细粒度表达模型,综合考虑分子间物理化学作用及从蛋白质序列库、结构库推断出的结构特征知识,分别构建基于理化知识的粗粒度和细粒度蛋白质能量数学模型。其次,基于粗粒度能量模型,设计构象空间优化方法搜索能量函数的全局最优构象,进而在细粒度模型能量函数的引导下,对全局最优构象进行结构精修。代表性的能量模型主要有I-TASSER、QUARK [ 18 ] 及Rosetta [ 16 - 17 ] 。模型优化方法主要包括:Metropolis蒙特卡罗极小化 (Metropolis Monte Carlo, MMC) [ 19 ] 、副本交换蒙特卡罗 (replica exchange Monte Carlo, REMC) [ 20 ] 、分子动力学模拟(molecular dynamics, MD) [ 21 ] 及进化算法 [ 3 , 22 - 23 ] 等。

    I-TASSER [ 25 - 26 ] 和QUARK [ 27 ] 是两款蛋白质结构预测服务器。I-TASSER使用穿线方法识别PDB库中的结构模板,基于结构模板构建蛋白模型;QUARK则是在理化知识能量模型的引导下,采用REMC [ 20 ] 方法对序列上长度为1~20个残基的特定位置进行片段组装生成蛋白模型。张阳课题组还整合了QUARK与I-TASSER两种方法,论证了模板建模和无模板建模方法的结合可以有效提升从头预测的精度 [ 28 ] 。在2016年的CASP12中,通过在QUARK中加入NeBcon [ 29 ] 预测的接触约束,前5个预测模型平均TM-score为0.41,相对于不使用接触约束的QUAKR模型高出了37% [ 30 ] ,这表明接触约束可以有效提升FM目标蛋白的预测精度。在2018年的CASP13中,采用新开发的序列比对生成协议,进一步将基于深度学习的接触预测方法ResPRE [ 31 ] 集成到NeBcon元方法中,有效提升了蛋白残基间接触预测的精确度。同时,对指导结构采样的接触势能做了进一步优化,推出了C-I-TASSER [ 32 ] 和C-QUARK [ 33 ] 两个版本。对于CASP13中的50个FM目标域蛋白,C-I-TASSER和C-QUARK构建的第一个模型平均TM-score分别比I-TASSER和QUARK的构建模型高出28%和56%。而且,第一次证明了接触预测在TBM目标域蛋白上的有效性 [ 15 ] 。在2020年的CASP14中,D-I-TASSER和D-QUARK再次在服务器组中拔得头筹。性能提升的关键在于3个方面:引入深度学习算法精确预测氨基酸间距离和氢键;利用I-TASSER平台将穿线模板与深度学习预测的距离和氢键约束有机结合;使用宏基因组构建高质量的多序列比对。

    Rosetta [ 16 - 17 ] 是生物大分子建模软件,集成了蛋白质结构建模和分析的各种采样算法和能量函数。除了蛋白质结构预测Rosetta Abinitio模块之外,还提供了从头蛋白质设计、酶设计及分子对接等功能。Rosetta提供一个灵活的功能库来完成各种生物分子建模任务。这些库定义的基本任务和操作作为算法被组合在一起,称为“Protocols”,每种Protocol都使用Rosetta的分子建模库来完成特定的建模任务。这些协议可以用作独立单元,也可以将它们链接在一起以完成更复杂的任务,如可以在通用框架内组合Protocols。这些特征使得Rosetta在蛋白质结构预测领域得到了广泛应用,极大地推动了蛋白质结构预测领域的发展。CASP11竞赛中,从共进化分析得到的残基间接触被用作作为约束条件,使得预测的模型质量普遍得到提高。之后,Baker意识到如果一个蛋白质家族有足够多的序列,则可能根据进化期间的共变现象来推断出残基间的接触关系。但是,如果目标蛋白没有足够的多样性多序列比对(multiple sequence alignment, MSA)时,是否可以通过宏基因组获取呢?基于上述思想,2017年Baker课题组首次将宏基因组数据整合在Rosetta中,相关工作发表在《Science》杂志上 [ 34 ] 。该研究结果表明,基于宏基因组数据可以产生精度更高的接触信息,结合基于接触的结构匹配和Rosetta采样方法,成功预测了614个未知结构的蛋白质模型。这一工作对蛋白质结构预测领域有着深远影响,在2020年的CASP14上,可以看到AlphaFold2、I-TASSER、QUARK等最先进的预测方法中均利用了宏基因组的数据信息。同年,文献[ 35 ]研究发现在超过4000个蛋白质家族中,有25%的直接共进化残基对在三维结构上距离超过5Å,3%残基对三维空间结构距离超过15Å。这一发现为2018年开始兴起的距离预测提供了重要的理论依据。

    这类方法的基本思想是针对特定查询蛋白序列,首先,通过序列比对方法对蛋白序列(或宏基因组)数据库进行搜索生成多序列比对(MSA)序列集合。然后,基于共进化原理,通过深度学习方法分析MSA中的协同进化模式,推断出三维结构空间中残基间的接触、距离、方位等空间约束条件。最后,基于空间约束条件直接构建数学模型,通过优化方法直接求解得到蛋白质三维结构模型。2011年,文献[ 36 ]在基于共进化方法预测蛋白质结构的挑战方面迈出了一大步,并在随后的CASP11~CASP14中得到广泛验证。2012年,程建林课题组最先把深度学习技术应用到共进化分析方面 [ 37 ] ,彻底改变了传统的接触、距离预测技术 [ 38 - 39 ] 。2017年,许锦波课题组首次将深度卷积残差神经网络(ResNet)应用到共进化分析接触预测,第一次真正意义上展现了深度学习在蛋白质结构预测领域的巨大力量 [ 6 ] 。这些事件都是蛋白质结构预测领域的里程碑。

    深度学习方法经过了2012年CASP10的萌芽阶段,2014年CASP11的验证阶段,2016年CASP12的发展阶段和2018年CASP13完善阶段之后,在2020年的CASP14中最终取得了重大进展和突破。DeepMind开发的AlphaFold2 [ 9 ] 通过端到端的深度学习,甚至可以直接从序列学习到蛋白质精确的三维结构。CASP竞赛发起者之一,Moult在2019年指出 [ 2 ] :“在蛋白家族中有足够数量序列的前提下,最新(指深度学习)预测方法基本上解决了长期以来单结构域蛋白质折叠拓扑结构预测的难题,而且比对所需要的序列数量已大幅下降,同时对基于模板建模方法的准确性也有了实质性的提高。”深度学习方法似乎可以有效地集成关于共同进化残基对、片段之间相互作用信息,或者利用序列相似性的记忆信息,有时甚至可以在几乎没有任何目标特定进化信息的情况下提供准确预测结果 [ 5 ]

    许锦波课题组在ResNet接触预测的思路上往前推进了一步。他们发现距离(连续值)比接触(0或1)更有用,通过深度学习整合模板和共进化信息,可以有效改善蛋白质结构建模质量。在CASP13中,许锦波课题组开发了基于距离的接触预测、穿线及折叠方法的RaptorX 3个服务器版本。在32个CASP13 FM目标上,RaptorX在46个参赛组中获得最佳接触预测排名,也是服务器组中最好的三维结构预测服务器之一。RaptorX在前L/5、L/2和L远程接触预测精度分别达到了70%、58%和45%,在所有参赛组中得到了T0950-D1和T0969-D1的最佳三维结构预测模型 [ 7 ] 。同一时期,2018年DeepMind首次参加CASP13三维结构预测人工组竞赛,并推出了蛋白质结构预测一代产品AlphaFold [ 8 ] 。AlphaFold采用了与学术界近乎同样的方法(或是同期并行开展),通过训练ResNet网络学习距离约束,进而构建距离约束数学模型,通过拟牛顿优化方法求解结构模型,并且不对多域蛋白进行分割,直接进行全长链建模。AlphaFold在人工组中累计总分68.3,排名第一(排名第二为张阳实验室I-TASSER系列,总分为48.2),并在43个目标蛋白质中获得了25个单项最佳模型。AlphaFold的实质性进展成功地表明通过简单的几何优化方法,辅以高精度的距离预测约束,是一种行之有效的蛋白质结构预测方式。在之后的一年中,文献[ 16 ]进一步将接触、距离预测扩展到方位预测,并将其集成到Rosetta能量模型中,并采用能量几何极小化方法求解结构模型,开发出了trRosetta。预测的方位相对于距离/接触而言,包含了不对称信息,能够有效避免数据的不一致性问题,在精度和效率方面基本与AlphaFold持平。随后,杨建益课题组进一步改进网络架构并加入模板开发了trRosettaX [ 40 ] ,在CASP14的盲测中被评为顶级服务器组之一。

    同时,几个研究团队在CASP13上提出并开发了相应基于深度学习的接触预测和三维结构预测方法与服务器。文献[ 41 ]分别基于协方差、精度和伪极大似然估计建立3个谱矩阵,作为深度残差卷积神经网络结构的输入特征,用于接触图训练和预测。通过端到端的训练和叠加,提出了两种集成矩阵特征的整合策略,开发了两个互为补充的接触图预测服务器TripletRes和ResTriplet。文献[ 39 ]开发了蛋白质结构预测系统MULTICOM的增强版本。MULTICOM增强版本主要包括基于深度卷积神经网络的残基−残基对距离预测、距离驱动的自由模板建模以及基于深度学习和接触预测技术的蛋白质模型质量评估等3个部分。文献[ 42 ]基于序列比对的改进方法和扩展数据源,设计开发了一种基于深度学习的接触预测工具DeepMetaPSICOV (DMP)。在原先MetaPSICOV和DeepCov算法的基础上,DMP融合两种算法的输入特征,并将之作为深度全卷积残差神经网络的输入特征。此外,2020年,文献[ 43 ]提出了一种接触预测方法AmoebaContact,并设计了基于梯度下降的GDFold方法求解接触约束模型,通过修改AmoebaNet的NAS(neural architecture search)算法,自动搜索神经网络架构来完成接触图预测任务。

    整体来讲,目前在蛋白质结构预测领域,包括14届CASP竞赛在内,主要还是关注于单域蛋白预测问题。相对于单域蛋白而言,目前多域蛋白结构预测问题研究工作要少得多。现有文献中多域蛋白质预测方法主要分为基于铰链区采样和基于分子刚体对接两类方法。在铰链区采样方法中考虑到多域蛋白质全长肽链连接性的因素,多域蛋白预测问题可以看作是单域蛋白结构折叠过程的一个特例,即保持每个单域结构刚性,通过调整铰链区构象来实现多域组装建模。因此,用于单域蛋白质预测的能量函数和构象空间采样方法(如Rosetta)经过一定的修正可应用于该问题 [ 11 ] 。在分子刚体对接方法中,考虑到结构域间的相互作用和不同蛋白质链之间的相互作用非常相似(尽管在作用机理上完全不同),多域建模可以视为若干刚体结构分子(如蛋白质−蛋白质)的对接过程,可以利用分子对接算法来求解 [ 44 ]

    2007年,文献[ 11 ]提出一种基于铰链区采样的两阶段多域组装方法(亦称Rosetta多域蛋白组装方法)。在第一阶段,基于Rosetta粗粒度能量模型(即侧链用质心伪原子代表),采用MC(Monte Carlo)方法对多域蛋白铰链区骨架二面角空间进行片段重组采样,并生成5000个诱饵构象。在第二阶段,首先对第一阶段生成的每个诱饵构象,结合Dunbrack Rotamer侧链库,采用MC协议重建域间接触界面氨基酸的侧链构象;然后基于Rosetta全原子能量模型,通过Rosetta标准的MC方法进行结构精修,主要包括铰链区骨架二面角微调、铰链区和接触面残基侧链组装、铰链区骨架二面角和所有残基侧链拟牛顿几何优化以及Metropolis准则生成测试构象4个步骤。76个包含两个结构域的多域测试蛋白组装结果表明,有38个多域蛋白经过两阶段组装之后得到模型RMSD<2Å,25个多域蛋白的预测精度RMSD>2Å。测试结果也表明,有13个多域蛋白质组装失败,至少有50%的多域测试蛋白并不能捕获到两个结构域正确的方位关系。结构域连续性的限制对多域蛋白质组装过程而言是一个至关重要的因素,然而该方法并没有考虑到结构域连续性的限制,也没有考虑不连续域的情况,并且超过两个结构域的多域蛋白组装在文中并没有给出相关报道。

    2015年,文献[ 44 ]提出了基于铰链区采样的多域组装方法AIDA。AIDA方法采用蛋白质三维结构简约表达模型,即每个残基包括4个主链原子和1个代表侧链中心的伪原子,其中侧链中心伪原子的位置根据骨架几何特征估计。在结构域组装过程中,每个结构域作为刚体分子,通过调整铰链区二面角改变多域蛋白的构象。在QUARK能量函数 [ 27 ] 基础上,进一步设计多域蛋白结构域间相互作用能量函数,考虑到单链连通性和结构域刚性约束的限制,使用了单轨迹能量极小化算法实现构象空间采样。测试集包括了136个连续2-域蛋白、36个连续3-域蛋白、13个连续3-域以上的蛋白以及20个含有不连续结构域和插入结构域的2-域蛋白。测试结果表明,独立解析结构域组装与从多结构域蛋白解析结构中提取单结构域组装相比,生成良好模型的成功率从65%下降到54%。这表明单域结构微小的变化都可能会对多域模型质量产生极大影响。此外,通过能量函数选择正确模型的成功率也从83.0%降低到53.8%,这表明设计的多域蛋白能量模型仍然还有很大的改进空间。

    2019年,文献[ 14 ]提出和开发了第一个真正意义上自动化的多域蛋白质组装方法和服务器DEMO。DEMO基于分子对接原理,通过逐域结构比对 [ 45 ] 检测类似模板,进一步根据类似模板的距离谱特征构建域间方位。在包含2~7个连续和不连续结构域的356个多域蛋白测试集上,有86%的连续域测试蛋白和100%不连续域的测试蛋白组装形成了具有正确拓扑结构的全长链折叠模型。在CASP12和CASP13中的多域目标蛋白组装结果也表明,DEMO生成的全长链模型精度显著提升。进一步,引入质谱交联数据CL和冷冻电镜密度图Cryo-EM的稀疏约束,组装模型的平均TM-score又分别提高了6.3%和12.5%。测试结果表明,DEMO是一种高效自动的全长链建模方法,有进一步适用于全基因组级规模的多域蛋白组装的潜力。尽管给出了一些成功案例,DEMO在CASP14的盲测中效果并不尽人意。在以下几个方面需要进一步改进:1) 在DEMO模拟过程中域结构一直保持刚性,这不能合理地解释由于绑定引起的构象变化。此外,预测的结构域通常具有较低的分辨率,因此在域组装模拟中引入主链骨架灵活性可以为单域局部结构细化提供可能。2) 近年来,基于共进化的接触和距离深度学习预测方法在蛋白质三维结构预测领域已经取得了巨大进展和突破。借鉴这一成功经验,基于序列的域间接触和距离信息可以引入到DEMO中,进一步细化得到更为合理的域间方位。

    不同于第一代AlphaFold,AlphaFold2中使用一整套的注意力机制取代了以蛋白质信息构建不同氨基酸彼此接近程度的图表再建模的相对传统的方式。AlphaFold2的整体系统架构有两个主要的处理“轨道”,其中一个轨道的输入表示MSA的行和列,另一个轨道的输入本质上表示蛋白质模型中每个氨基酸之间的原子间距离。MSA路径允许网络跟踪氨基酸守恒和协变特征,而距离矩阵提供每对氨基酸的3D空间信息,这两个轨道之间还可以交换信息。这意味着随着距离信息的改进,可以重新解释MSA,在重新解释MSA时,也可以进一步改进距离信息。最后,来自两条轨道的信息被输入结构模块,该模块试图构建蛋白质的3D模型:即无需外部建模程序的情况下,直接输出氨基酸残基的3D坐标。最后,以旋转不变的特殊几何形式表示的结构将会基于注意力机制进行迭代改进。这种旋转不变性是基于结构生物信息学中的标准共价几何实现的,即在每个氨基酸周围定义局部坐标框架 [ 46 ] 。AlphaFold2展示了一种联合嵌入多序列比对(MSA)和成对特征的新体系结构、一种新的输出表示和相关损失、一种新的等变注意体系结构,并自我估计准确度 [ 9 ] ,大大提高了结构预测的准确性。

    RoseTTAFold [ 11 ] 是受到DeepMind研究结果启发后开发的一个“三轨”(three-track)神经网络模型,与AlphaFold2在同一天分别发表于《Science》和《Nature》。在RoseTTAFold中,探索生成了一个可使信息沿着一维序列对齐轨道和二维距离矩阵轨道并行流动的“双轨”网络,其性能远远优于trRosetta。在此基础上,他们将双轨模型的两个层次与运行在三维骨干坐标上的第三个平行结构轨道相结合,从而使得1D氨基酸序列信息、2D距离信息和3D坐标信息之间能够来回流动,共同推理三者内部和之间的关系。通过RoseTTAFold(end-to-end)和RoseTTAFold(pyRosetta)的比较,他们认为侧链信息的加入可以进一步改善模型精度。

    \begin{array}{*{20}{c}} {{\rm{lDD}}{{\rm{T}}_i}{\rm{ = }}\dfrac{{4{p_1} + 3{p_2} + 2{p_3} + {p_4}}}{{4{p_0}}}}\\ {{\rm{lDD}}{{\rm{T}}_{{\rm{global}}}}{\rm{ = }}\dfrac{1}{L}\displaystyle\sum\limits_{i = 1}^L {l{\rm{DD}}{{\rm{T}}_i}} } \end{array} 在基于深度学习的模型质量评估方法中,特征设计和网络模型构建是影响评估性能的两个关键因素。文献[ 51 ]提出了一种基于超快速形状识别(ultrafast shape recognition, USR)的深度学习模型质量评估方法DeepUMQA。在深度残差网络的框架下,通过计算一组残基距离集合的一阶矩,引入残基级USR特征来描述残基与整体结构之间的拓扑关系,然后结合一维特征、二维特征和体素化特征来评估模型的质量。实验结果表明残基级的USR特征能与残基体素化特征形成互补,更全面地刻画残基的结构特性,显著提高了模型评估精度。在CASP13/14测试集以及CAMEO盲测结果显示,DeepUMQA及其改进版本多次在CAMEO周测中排名第一,性能优于大部分先进的模型质量评估方法。

    地址: 成都市建设北路二段四号电子科技大学主楼中350室 电话: 028-83202308,83207559 Email: xuebao@uestc.edu.cn

    北京仁和汇智信息技术有限公司