当你看到蛋白质这三个字的时候,你会想到什么?是七大营养素之一?是抵抗岁月的胶原蛋白?还是生命编码的执行机器?


蛋白质是生命的基本构成单元,是生命活动的物质基础。理解蛋白质本身,可以使我们一窥生命的奥秘,守护人类健康。


所以,上周末在杭州云栖小镇举行的第八届全国“跨学科蛋白质研究”学术讨论会,吸引了我们的关注。会议集聚了1082位参会者,这是目前国内蛋白质科学学科领域最全面、学术水平最高的会议之一。

八大主题40多场报告,对于普通人来说可能无法全部听懂——不仅因为生涩的名词和英文,还因为蛋白质研究需要横跨生物化学、生物物理、细胞生物学、植物生物学、合成生物学等众多学科。


但我们还是希望用最通俗的语言,传递他们在关注什么、讨论什么,他们正在进行怎样的尝试,以及这样的尝试将如何改变我们未来的生活。





折   叠




1838年,荷兰科学家格利特·马尔德率先发现了蛋白质。打开百度词条,你能看到很多与蛋白质相关的解释,从结构、性质、组成、分类到相关学科,似乎很全。但事实上,人类过去近200年间的努力,窥见的仍是冰山一角。




让我们把时间调回到1953年。克里克和沃森在英国杂志《自然》上公开了他们的DNA模型,生命研究由此进入了一个由ATCG构成的编码时代。在此基础上,克里克又提出了著名的“中心法则”,用简单清晰的表述,讲清了DNA、RNA、蛋白质三者的关系:


如果说,DNA是一本密码本的话,RNA就从这本生命天书里不断抄写重要的句子,RNA会以三个碱基为一个密码子,每个密码子对应一个氨基酸,“翻译出”一长串氨基酸串联成多肽。一条或者多条多肽通过肽键连接再一起,最终通过折叠,形成各种具备3D结构的蛋白质。此后,折叠后的氨基酸序列继续“组装”,最终形成蛋白质复合物。

人体中只包含20种天然氨基酸,却构建出复杂多姿的生命形态。你可以把蛋白质比喻成一张白纸,白纸可以折出纸飞机,可以卷成圆柱,或者变成瓦楞状——千变万化的姿态决定了他们千差万别的功能 最终打开了生命之门,也打开了人类研究生命之窗。

但这样的“折叠”对科学家而言极具挑战。

蛋白质的颗粒直径大概在1-100纳米之间,而可见光的波长在390纳米以上,这意味着什么?如果人类用可见光来观察蛋白质,就会发生衍射,因为蛋白质已经小于光的波长,突破了可见光能观测到极限。科学家开发出一系列的技术手段,例如先让蛋白质结晶,然后用射线照射来计算蛋白质的结构数据。但蛋白质结晶困难重重,之后冷冻电镜的出现,在不需要结晶的情况下,进一步打开观察蛋白质的视野。此外,还有诸如分子标记、质谱分析等等方法,来识别和分析蛋白质。

例如,在2021年,西湖大学吴建平实验室解密精子活化开关CatSper通道体结构,并且发现了此前人类从未知晓的蛋白组分,为不育症相关药物和非激素类避孕药物开发奠定了重要基础。

机   器




很大程度上,蛋白质折叠后形成的结构决定了蛋白质的功能,但研究“结构”并非最终目的,通过结构最终指向的是对生命活动的破译甚至疾病治疗,比如药物研发。




我们经常把生命活动比喻成机器,实际上,我们也是这么理解的。蛋白质是生命这台庞大“机器”中,最最主要的部件。多种蛋白质组合在一起,构成了蛋白质机器,并进一步构建起我们的肌体,支撑了生命的运动——例如维持生命活动的各种跨膜运输蛋白;参与生命调节和催化的各种酶复合物;构建生命免疫防线的各种抗体复合物等等。
以膜蛋白受体复合物为例,它们是细胞表面的一种或一类分子,能识别、结合专一的生物活性物质(称配体),结合后的复合物能激活和启动下游一系列物理化学变化。通俗地讲,它们在细胞这台大机器中起到了关键的“齿轮”的作用。其中,G蛋白偶联受体(GPCR)是真核生物中最大的一类膜蛋白家族,也是最大的一类药物靶点。理解GPCR的结构可以为神经疾病、免疫疾病及癌症的治疗提供关键信息。

徐华强教授
来自中国科学院上海药物研究所的徐华强,在大会现场重点报告了他对GPCR的相关研究。 徐华强曾在著名的药企美国 葛兰素史克 担任过研究员,曾任美国Van Andel研究所杰出教授和药物研发中心主任。围绕GPCR信号传导的复杂结构,他概述了GPCR对不同G蛋白亚型和阻抑蛋白同工酶的选择性结构基础,展示了小分子配体如何独特地结合到GPCR的细胞内“口袋”,基于此进行设计可以满足不同的治疗需求。这些研究将为未来药物研发开辟了新的道路,而小分子药物特定地和蛋白质的“口袋”结合,也可以最大程度地降低药物分子的副作用。
虽然GPCR的功能如此重要,然而到现在,很多GPCR的配体及功能都不清楚,被称为“孤儿受体”。发现他们的配体,为这些蛋白“脱孤”能揭示很多新的分子机制,并为治疗相关疾病提供新的视角。来自山东大学的孙金鹏教授聚焦于GPCR的配体发现、信号转导及功能研究,发现了一系列GPCR的关键配体,为20多个重要GPCR“脱孤”。他在会议上分享了GPCR作为声音以及平衡感觉的受体的研究,令人耳目一新。

谢晓亮教授
北京昌平实验室主任谢晓亮院士,是中国最知名的生物学家之一,也是单分子酶学的创始人、单分子生物物理化学的奠基人之一。当天的报告中,他分享的重点之一就是在新冠期间的研究。疫情一开始,他们就通过单分子测序技术寻找中和抗体——你可以将“中和抗体”理解成一种蛋白质——来应对新冠疫情。通过对新冠病毒所有的关键氨基酸进行深入研究,他们预测了哪些变体可能产生“逃逸”——就是它可以“骗”过人类的免疫系统。他们的预测与现实世界中的病毒变异高度吻合。谢晓亮表示,当下一次疫情来临时,他们就可以通过快速排序找到下一个可能的抗体。


造   物




蛋白质不仅是生命机器的部件,人类也因为洞悉蛋白质运作的规律,有了理解生命的一个支点。而接下来,就是从解读编码,到创造编码的过程。
大会当天,美国华盛顿大学蛋白质设计研究所的David Baker的报告,吸引了很多人的关注,报告主题是《使用深度学习设计新的蛋白质功能》,而他正是这一领域的“开山鼻祖”。



所谓“蛋白质设计”,是指不依赖现有的天然蛋白质结构,从头搭建、设计具有全新结构和全新功能的蛋白质,从而在性能方面更好满足人类特定的需求。
从把蛋白质理解成机器,到调控蛋白质成为机器,这是一个巨大的飞跃。


David Baker

当下,人工智能在公众领域最热门的体现是ChatGPT,而在蛋白质领域的代表之一就是 “AlphaFold”。截止到2020年,人类通过实验科学手段,一共拿到了将近20万个蛋白质或大分子的空间三维结构,但通过人工智能手段,在短短两三年间,就预测出了将近7亿个结构,把人类过去半个世纪的积累迅速扩大了几千倍到几万倍,这种变化是不可思议的。
当然,AlphaFold的学习样本大量还是来自之前科学家解析出来的结构,目前人工智能主要预测蛋白质的单一结构,而无法预测蛋白质与DNA、小分子结合后的结构转变。但AI毫无疑问是人类探索蛋白质领域的“有效工具”。
David Baker团队的工作,就是在AI的助力下,通过编排蛋白质的氨基酸序列,使其能够自发折叠形成所需要的三维结构,并具有一定的功能。他们基于深度学习开发的一系列工具,在药物研发、多肽设计、小分子结合蛋白设计、新型材料开发等重要生物问题取得了出色的表现。
例如,针对新冠病毒表面刺突蛋白(spike)上的三个位点,他们设计了结合蛋白,像一个“三脚架”一样紧密结合到刺突蛋白上,从而实现更有效的抗体药物治疗效果。针对没有固定构象的多肽和无序蛋白,深度学习工具也取得了出色的结果,比如Baker实验室设计了能够结合与阿尔茨海默症有关的淀粉样蛋白形成肽的结合蛋白,实现了对淀粉样蛋白Abeta形成的完全抑制。
这样的探索同样在西湖大学进行。2020年,卢培龙实验室在世界上首次实现了跨膜孔蛋白的精确从头设计,这也为人工蛋白质后续可能的应用打开了大门,有望为纳米孔基因测序、分子检测等生物技术提供新的检测手段。而他,曾在David Baker的实验室开展过博士后研究工作。
卢培龙说,他们的工作,本质上在创造本不曾存在的蛋白质:

估计自然界中出现的蛋白质数目是10的12次方,但是这么多蛋白质的折叠(fold)类型经过结构解析实验验证的大概只有1400多种,所以可以想象,大自然其实在蛋白质序列空间里取样可能只取了非常少的一部分。因为序列空间是接近无限的,在几十亿年的时间尺度下,大自然也很难做到对整个空间进行完全彻底的取样。
在几十亿年的尺度下,大自然也仅仅对蛋白质能形成的折叠空间做了非常少的取样。而人类面对的,是蛋白质构建的星系空间,尽管已经走过百年历程,但这场星际旅程也许才刚刚开始。