AlphaFold2 是一种由 DeepMind 开发的用于预测蛋白质结构的机器学习算法,它可以从蛋白质数据银行(PDB)的训练数据集中,基于其氨基酸序列推断出蛋白质的三维构象。在 CASP14 比赛中,AlphaFold2 表现非常出色,超过了所有其他方法。迄今为止,AlphaFold2 已经被用于为 21 种模式生物做蛋白质结构预测,还有预测 SwissProt 和 UniRef90 数据库中的所有蛋白质的构象,并生成了超过 35 万个蛋白质结构模型。
自从 2021 年推出以来,AlphaFold2 已经对生物研究产生了巨大影响。它既能够研究不同蛋白质组中的蛋白质结构-功能关系、相互作用、配体结合位点、错义变异和结构元素,还可以通过提供初始模型或改善低分辨率数据来作为实验方法(如冷冻电镜和 X 射线晶体学)的补充。
AlphaFold2 的应用潜力显然不止于此。中国科学院遗传与发育生物学研究所高彩霞团队首次运用 AlphaFold2 的蛋白结构预测功能来辅助蛋白聚类,并开发出一系列碱基编辑工具,拓展了 AlphaFold 2 的应用范围。
日前,该研究以“Discovery of deaminase functions by structure-based protein clustering” 为题,在线发表于《细胞》期刊上。
开创性的尝试
蛋白质功能的解析以及在生物工程中的应用,在极大地推动着生命科学的发展。传统的酶挖掘,仅基于氨基酸序列信息来对蛋白质功能和进化轨迹进行分类和预测。然而,一维的序列信息无法完全阐明蛋白质的功能特性。由于蛋白质功能最终由三维构象,即蛋白质折叠决定,因此在蛋白质挖掘和聚类分类过程中,了解蛋白质结构至关重要。
高彩霞团队使用 AlphaFold2 来预测整个蛋白质家族的结构,并根据预测出来的结构的相似性对蛋白质进行聚类。在该项研究中,团队对脱氨酶蛋白进行分析,并发现了许多之前未知的性质。
脱氨酶样蛋白可以催化核苷酸和碱基的去氨基化。它们在突变、核酸代谢和其他生物过程中起着重要作用,还被用来作为可编程 DNA 和 RNA 的碱基编辑器。但是有个问题一直困扰着研究者们,那就是很难基于氨基酸序列来确定脱氨酶各种蛋白质家族之间的关系。所以 AlphaFold2 对三维结构的预测能力使其成为解决这个问题的利器。
预测结果让人意想不到的是,在双链 DNA 脱氨酶毒素 A 样脱氨酶(DddA-like)支系中,大多数蛋白质并不是双链 DNA 脱氨酶。研究团队设计了尺寸最小的单链特异性胞嘧啶脱氨酶,这样能够将高效的胞嘧啶碱基编辑器(CBE)打包到单个腺相关病毒(AAV)中。随后,对该支系的一种脱氨酶进行的分析发现它能够在大豆植物中进行强有力的编辑,而原来 CBE 无法在大豆植物中使用。这些发现极大地扩展了碱基编辑器在医疗和农业中的应用前景。
根据 AlphaFold2 预测的结构进行聚类
高彩霞团队利用 AlphaFold2 根据氨基酸序列预测了重注区域的蛋白质结构,并按照结构相似性进行了聚类分析。这样就能够在植物和人类细胞中检测这些蛋白质的 ssDNA 和 dsDNA 胞嘧啶去氨基化活性。团队还利用结构相似性矩阵比较了 242 种蛋白质(238 种胞嘧啶脱氨酶和 4 种 JAB 蛋白)的预测结构,这些蛋白质分属于 16 个脱氨酶家族和 1 个外类群。矩阵中不同颜色的区域反映了不同家族蛋白质之间的相似度差异。随后,根据蛋白质结构的特征,它们被划分为不同的脱氨酶家族。
评估脱氨酶活性
随后的研究发现,SCP1.201 脱氨酶类群的一些蛋白质具有脱氨酶活性,可以让单链 DNA 底物脱氨。这些蛋白质被称为双链 DNA 脱氨酶毒素 A 样脱氨酶(DddA-like)。然而,研究人员发现这些蛋白质也可以用于双链 DNA 的基因编辑。对 SCP1.201 类群的 489 个脱氨酶进行重新分析表明,这些蛋白质可以被分为不同的亚类,具有独特的核心结构特征。其中,SCP1.201 类群中的 Sdd 蛋白质具有脱氨单链 DNA 的活性,而不是双链 DNA。因此,这些蛋白质应该被重新定义为 Sdd,而不是 DddA-like。
这些结果说明,基于蛋白质结构的分类方法比基于一维氨基酸序列的分类方法更有效,可以为基因编辑提供新的机会,同时可以更准确地评估脱氨酶的功能关系。
新发现的 Ddd 蛋白
研究人员将 13 个属于 Ddd 亚族的脱氨酶克隆到双链 DNA 胞嘧啶碱基编辑器(DdCBE)中,在 HEK293T 细胞内评估了在内源性 JAK2 和 SIRT6 位点的 dsDNA 碱基编辑。有趣的是,研究发现 Ddd1、Ddd7、Ddd8 和 Ddd9 的编辑效率与 DddA 相当或更高,而 Ddd1 和 Ddd9 在 50-GC 碱基序列上的编辑活性明显高于 DddA。此外,研究还发现新发现的 dsDNA 靶向脱氨酶可以编辑之前 DddA 无法接近的胞嘧啶碱基序列。这个发现扩展了 DdCBE 的实用性和靶向范围。通过评估新发现的 Ddd 蛋白质和 Sdd 蛋白质的编辑活性,研究人员发现它们可以更准确地编辑胞嘧啶碱基序列,为基因编辑工具的开发提供了新途径。
Sdd 蛋白质在碱基编辑中的独特性
接下来的研究发现,在人类和稻米细胞中,不同的 Sdd-CBEs 在所有测试的基因组靶点上显示出不同的编辑模式。通过靶向报告锚定位置测序,研究人员发现与传统的 CBEs 相比,Sdd 蛋白质具有更高的编辑效率、不同的脱氨酶基序偏好和编辑窗口。研究还评估了 Sdd 蛋白质的 Cas9 独立的非靶向效应,并发现 Sdd6 表现出最高的靶向/非靶向编辑比率,使其成为高保真碱基编辑的备选方案之一。
研究团队使用 AI 辅助来制作 Sdd 蛋白质,并缩短其长度,于是得到了小型化的脱氨酶。它们小巧并具有相同、甚至更高的编辑效率。这些小型化的脱氨酶可以允许构建单个 AAV 封装的 SaCas9-CBEs。这突显了 Sdd 蛋白质在碱基编辑中的潜力以及 AI 在蛋白质工程中的作用。
SddCBE 在碱基编辑中的应用
在水稻植物基因组编辑中,mini-Sdd7 比农业中最常用的 hA3A-CBE 具有更高的效率和较低的毒性。在大豆中,研究团队使用瞬时碱基编辑(transient base editing)来评估在根细胞中的编辑百分比,并发现 mini-Sdd7 在所有测试位点上的胞嘧啶碱基编辑水平显著增加,编辑效率高达 67.4%。此外,团队还成功地使用 Sdd7 获得了经过碱基编辑的大豆植物,这让在大豆植物中实现高效的碱基编辑成为可能,可以服务于将来的农业育种工作。
AI 为生命科学带来了新机遇
本研究采用结构预测为基础的方法,对胞嘧啶脱氨酶类超家族进行了蛋白质分类和挖掘的概念验证探索。研究表明,AlphaFold2 预测的结构可以很好地将脱氨酶分类为不同类群,这些类群具有不同的蛋白质折叠和催化功能。在此基础之上可以设计的精准基因组编辑工具。这种由 AI 辅助的策略可以应用于任何蛋白质数据集的高通量分类和功能分析。
基于人工智能的蛋白质结构预测和分类将为具有可变序列和低序列保守性的蛋白质分类提供新的视角。而这只是 AI 为科研所带来的许多新机遇之一。在生命科学领域,除了这里提到的用于研究蛋白质结构的 AlphaFold,AI 正大显身手。
在生物制药方面,机器学习、深度学习等 AI 技术正在替代以往的大量实验,对药物结构、功效等进行快速分析,以达到缩短试验周期、节省成本、促进新药发现、提升试验成功率等目的。
而在组学研究上,近年来随着测序技术的进步,导致数据量暴增,随之而来的数据噪声和批次效应显现。此外还有多模态数据的整合等挑战。针对单细胞转录组的数据,AI 大模型就有了用武之地。它通过自监督学习和微调两个阶段,学习基因之间的编码关系,降低数据维度和噪声,增强模型鲁棒性。类似的,空间组学技术也面临数据量大、数据缺失以及需要定位细胞位置等挑战。在这里,大模型可以利用迁移学习和空间信息 Embedding,用于空间转录组数据的细胞类型注释。研究人员利用人工智能技术,特别是深度学习技术,分析和挖掘单细胞测序数据和空间组学数据。大模型在多个数据集上显示出优异的性能,为生命大数据的理解和应用提供新的思路和手段。这些或许将根本性地改变生物制药,甚至生命科学研究的面貌。
声明:本文仅供科研分享,助力科学传播,不做盈利使用,如有侵权,请联系后台删除。
返回搜狐,查看更多
责任编辑: