随着高通量质谱技术的高速发展,科研人员可快速从蛋白质组学中挖掘到翻译后修饰数据信息。在翻译后修饰组学研究中,磷酸化(Phosphorylation)修饰因作为涉及蛋白质范围最广泛以及修饰位点数量最多的修饰类型而备受关注。磷酸化修饰通过影响蛋白质的活性、蛋白质-蛋白质相互作用以及蛋白质细胞内定位等方式调节蛋白质的功能。随着组学技术的发展以及精准医学概念的提出,蛋白质的磷酸化异常与癌症、神经退行性疾病和心血管等疾病的发生发展密切相关,为疾病诊断和靶标发现提供了潜在有价值的生物学空间。过去十多年间,人体中鉴定到的蛋白质磷酸化修饰位点的数目超过50万条,而由于生物功能实验的复杂性,当前具有功能注释信息的磷酸化位点不到1万条。因此,对磷酸化位点的功能研究成为翻译后修饰位点研究中的瓶颈。

9月3日,中国科学院上海药物研究所罗成课题组和苏州大学系统生物学研究中心梁中洁课题组合作,在《细胞报告》(Cell Reports)上,发表了题为Deciphering the functional landscape of phosphosites with deep neural network的研究成果。该研究从现有具有功能注释信息的磷酸化位点数据出发,提出了集成的深度神经网络模型FuncPhos-SEQ,对人类蛋白质组水平上的磷酸化位点进行功能预测打分。该模型使用卷积神经网络通道提取磷酸化位点基序的序列信息,利用网络嵌入和深度神经网络通道提取蛋白质-蛋白质相互作用(PPI)网络信息,将这些特征联合输入到异构特征网络中对磷酸化位点的功能进行打分预测,构建了FuncPhos-SEQ的在线服务器(http://funcptm.jysw.suda.edu.cn/seq)。该研究通过结合体外和细胞生化实验发现,NADK-S48/50磷酸化可激活其酶活性。此外,该研究发现ERK1/2是磷酸化NADK-S48/50的主要激酶。

该团队通过检索PSP、EPSD、iPTMnet及PTMD数据库,收集了人类具有功能注释信息磷酸化位点的3335个蛋白质及135063个磷酸化位点。其中,带有功能注释的磷酸化位点有9769个。该研究根据PSP数据库的注释得出磷酸化位点的作用包括调控蛋白质分子功能、参与生物过程以及调控大分子间互作。研究通过多序列比对分析发现功能性磷酸化位点具有较高的保守性以及一定的共演化特征;具有功能性磷酸化位点的蛋白质在PPI网络中具有较高的连接度、介数等网络拓扑参数,表明PPI网络拓扑在磷酸化位点发挥功能中重要的作用。该研究基于功能性磷酸化位点的特征统计,提出了基于蛋白质序列和PPI信息的人类蛋白质组水平的磷酸化位点功能预测的深度学习框架FuncPhos-SEQ。

该模型由两个特征编码子网络(SeqNet和SPNet)和一个特征组合子网络(CoNet)组成。科研团队通过测试不同的序列特征和模型组合,在SeqNet中采用One_Hot、PSSM编码以及保守性特征来构建磷酸化位点所处基序的特征图谱。该研究使用CNN框架自动提取二维矩阵的序列特征信息,在One_Hot通道增加最大池化层减小来自上层隐藏层的计算复杂度;在PSSM通道增加位置嵌入和自注意力机制,添加残基的绝对或相对位置信息,进一步捕捉蛋白质序列中残基之间的长距离依赖关系和全局信息。该研究在SPNet中通过SDNE网络嵌入方法对PPI网络进行编码学习蛋白质之间的非线性关系,并通过DNN框架优化PPI网络特征,为磷酸化位点功能提供蛋白质层面的上下文信息;在CoNet中使用FNN对输入的特征进行非线性变换,在网络最后一层使用Sigmoid激活函数用于预测磷酸化位点具有功能的概率。针对不平衡问题,该工作对阴性数据集随机下采样11次,并在具有不同阳性与阴性数据比率的测试集上进行预测。结果表明,FuncPhos-SEQ在不同的测试集上均能对磷酸化位点的功能(包括调控活性、调控互作及非特异功能)获得较好的预测效果。

NADP+/NADPH(辅酶Ⅱ)参与磷酸戊糖代谢过程,为大分子生物合成和清除过量ROS提供还原力,支持细胞生长和存活,对快速增殖的癌细胞尤为重要。在人类细胞中,NADK是NADP+/NADPH合成的关键限速酶。已有研究发现,AKT通过磷酸化NADK-第44/46位丝氨酸激活NADK活性,促进肿瘤细胞NADP+/NADPH合成。

科研团队对FuncPhos-SEQ对NADK上的磷酸化位点打分,N端loop区的S15、S44、S46、S48、S50、T62、S64和S103上的磷酸化位点作为功能位点排名较高。该研究在293T细胞中过表达NADK,通过质谱鉴定出NADK-S48/50具有最强的磷酸化修饰信号。体外酶学实验发现,NADK-S48/50D突变体比NADK-WT具有更强的酶活。这提示NADK-S48/50的磷酸化可激活NADK活性。该团队进一步通过质谱实验、蛋白免疫共沉淀实验、体外磷酸化实验和酶学实验鉴定出ERK1/2可结合并磷酸化NADK第48/50位丝氨酸,并激活NADK活性。

综上,该研究构建的FuncPhos-SEQ模型在应用中只需原始蛋白质序列作为输入,便可对人类蛋白质组层面的磷酸化位点进行功能预测。该模型具有较高的计算效率,构建的在线服务方便生物学家访问。以NADK为例,科研人员使用FuncPhos-SEQ预测了NADK的功能磷酸化位点,并通过实验验证ERK1/2为磷酸化NADK-S48/50的激酶。Ras尤其是KRAS的突变是肿瘤中发生最广泛的激活型致癌突变,而MEK-ERK1/2和PI3K/AKT信号通路是KRas下游最重要的两条信号通路。研究发现,NADK-44/46/48/50磷酸化比NADK-44/46或NADK-48/50磷酸化更有效地增强了NADK活性,表明AKT和ERK1/2激酶可共同激活NADK活性。该研究加深了科学家对KRas调控NADK活性方式的认知,为靶向KRas信号通路提供了可能性。

研究工作获得国家重点研发计划和国家自然科学基金等的支持。

磷酸化位点功能预测的深度学习模型FuncPhos-SEQ示意图

FuncPhos-SEQ预测得到的NADK-S48/50被ERK1/2磷酸化并激活其酶活