将NLP技术应用到蛋白质中,为以一种自我监督、数据驱动的方式从蛋白质中提取信息提供了新的机会。新的蛋白质表达可能补充现有的解决方案,当将进化信息和机器学习结合起来时最为成功。在这里,我们首次展示了从蛋白质LMs输入到相对简单的监督学习模型的嵌入可以在不使用EI和不太优化监督训练管道的情况下达到类似的性能水平。然而,与使用进化信息的传统模型相比,蛋白质LM的推理速度的提高十分显著,以至于30年来首次在商品硬件上实现大规模预测。例如,性能最好的型号ProtT5-XL-U50可以在Nvidia TitanV上运行,vRAM为12GB(详情请参阅方法)。
然而,考虑到这里描述的实验和在之前的工作中,我们可能会期望蛋白质LM在使用masked语言建模(或自回归前训练)时能够学习的上限。虽然这项工作明确讨论了达到这一极限的可能性,但我们不能最终提供一个答案。我们可以得出三个发现。
(1)更少噪声和冗余语料库(如UniRef50)在更大但噪声和冗余语料库(如BFD)上得到改善。
(2)在资源有限的情况下,最重要的是将资源用于足够长的训练,因为在训练前看到的样本数量与下游任务的预测性能相关。最终,这似乎源于足够的模型大小和样本吞吐量之间的权衡。
(3)双向模型优于单向模型。然而,考虑到蛋白质LM在回顾这项工作的过程中所取得的进展,我们还没有看到任何证据表明蛋白质LM达到了极限。
以下问题的答案可能会推动现状。
(1) BERT或Albert提供的辅助任务,如下一句或句子顺序预测,是否适合蛋白质序列?一个建议可能是使用结构信息或进化关系。
(2)变压器蛋白LM训练的效率是否可以通过稀疏变压器或Reformer模型最近引入的局部敏感哈希(LSH)或线性变压器最近的工作来提高?
(3)为了获得更好的结果,哪些数据集应该最优地使用预处理、简化和训练批量抽样?
(4)将受监督的培训管道调整到特定的任务,会有多大的改进?
我们将二级结构或定位预测更多地作为展示蛋白质LM成功的代理,而不是作为一个独立的末端。
(5) EI和AI的结合会带来未来最好的蛋白质预测,还是单蛋白质预测的优势(速度、精度)胜出?
事实上,单蛋白质预测也有更精确的优势,因为它们不提供蛋白质家族的隐含平均值。
总的来说,我们的结果表明,将用于训练蛋白质LM的HPC解决方案与随后的监督预测方法的训练相结合,可以扩大到该领域迄今为止使用的最大数据集。只有结合这些不同的结构域,我们才能证明蛋白质LM可以达到与最先进的结合EI和AI的方法相同的性能,而无需利用多重序列比对。
在这里,我们引入了许多新的蛋白质语言模型(LM),并证明从最后的LM层提取的嵌入捕获了与蛋白质结构和功能相关的约束。
尽管没有使用有史以来最大的蛋白质LMs数据库(BFD),也不是非常大的模型产生了信息量最大的嵌入,但在相当多的多样性上进行足够长的预训练有一定效果,而且最近的LMs表现最好。
使用嵌入作为相对较小的CNN/FNN模型的单独输入,无需太多优化,就可以获得在预测二级结构、定位和将蛋白质分类为膜/其他方面具有竞争力的方法。
事实上,基于LM嵌入输入的小型监督解决方案第一次达到了对基于多序列对齐(MSA)输入的最新(SOA)方法的挑战的性能水平。相比之下,本文所介绍的模型从未使用过MSAs。当常规地将基于嵌入的蛋白质预测应用于大型数据集时,这可以节省巨大的费用,但它也为蛋白质特异性预测而不是家族平均预测开辟了一条道路。
最终,将三个不同但互补的领域(HPC、NLP和计算生物学)的优势结合起来,得到了进展。自我监督的预训练结合迁移学习挖掘了未标记数据的金矿,为现有问题的全新视角(和解决方案)打开了大门。
2021SC@SDUSC基于人工智能的多肽药物分析问题主题:蛋白质预训练模型(7)原始下游预测二级结构预测与其他蛋白质语言模型的对比关于ProtT5-XL-UniRef50(称为ProtT5-XL-U50)的重要注意事项:所有性能仅使用从底层T5模型的编码器侧提取的嵌入件进行测量,如下所述。此外,还以半精度模式(model.half())进行了实验,以加快嵌入生成的速度。以半精度运行时,在任何实验中均未观察到性能下降。论文阅读蛋白质语言模型到达上限了吗?将NLP技术应用到蛋白质中,为
ProtTrans
提供了最先进的蛋白质预训练模型。 ProtTrans接受了来自Summit的数千个GPU和数百个使用各种Transformers模型的Google TPU的培训。
看看我们的论文来以获取有关我们工作的更多信息。
该存储库将定期更新以新的蛋白质预训练模型作为支持生物信息学界的一部分,特别是通过我们的SASAR 项目Covid-19研究。
uniref100,uniref90,uniref50是蛋白质数据库
uniref100是包含所有的已经验证的蛋白质的序列
UniRef90基于UniRef100构建,而UniRef50基于UniRef90构建.
UniRef90和UniRef50分别使数据库大小减少了约58%和79%,从而显着加快了序列相似性搜
esm:训练使用了ur50和ur90
下载地址:
https://www.uniprot.org/downloads
uniref50:9gb
https://ftp.uniprot.or
文章目录前言一、蛋白质结构的研究意义二、当前研究现状三、AlphaFold的介绍1、AlphaFold出现的意义2、AlphaFold2的方法四、未来发展五、代码情况六、学习计划七、参考论文
我们小组的题目是基于
人工智能
的
多肽
药物
分析
问题
,在这个大的题目下,魏老师为我们几个同学分配了小的课题。我目前研究的方向是基于
人工智能
预测蛋白质的三
级
结构。下面我将从蛋白质结构的研究意义、当前研究现状、AlphaFold的介绍、未来发展、代码情况、未来学习计划、参考论文六个方面介绍我自己的小课题。
CDNN二
级
结构计算软件是一款生物信息学工具,用于预测蛋白质二
级
结构。二
级
结构是蛋白质的基本结构单位,包括α-螺旋、β-折叠、无规卷曲等,对于蛋白质的功能和稳定性具有重要影响。
CDNN二
级
结构计算软件基于深度神经网络的技术,可以通过
分析
蛋白质的氨基酸序列,预测蛋白质的二
级
结构组成。该软件提供了高准确性和高速度的计算结果,可广泛
应用
于蛋白质结构
分析
、蛋白质工程等领域。
CDNN二
级
结构计算软件的
应用
场景广泛: 例如,长时间以来,通过X射线晶体学和核磁共振技术(X-ray crystallography and NMR),虽然已经解决了数千个蛋白质和
多肽
的原子结构,但是,这种方法仍然是昂贵和缓慢的,而且不适用于大型蛋白质,等等。然而,CDNN可以通过对蛋白质序列进行计算,来预测蛋白质的二
级
结构。这种方法具有高速度和经济性,并且已经在许多生物医学
应用
中得到了验证和
应用
,例如
药物
设计和蛋白质结构预测等。
总之,CDNN二
级
结构计算软件是一款成熟的生物信息学工具,在蛋白质结构方面具有较高的预测准确性和速度,为广大科研工作者提供了更加高效的数据
分析
和解决方案。