发布时间:2023-03-15

T 细胞受体( T-cell receptor, TCR )是获得性免疫过程中的关键分子。 TCR 经过 特定的基因重组和进化筛选,具备高度的多样性及特异性。 MHC- 多肽复合物与 TCR 亲和力的计算识别( pMHC-TCR binding recognition )是 揭示肿瘤、自身免疫性疾病和病毒感染性疾病等疾病发生发展机制的重要手段,也是计算免疫学领域基本而又极具挑战的问题,其挑战性具体体现为:

1 TCR 空间呈现高度多样性,现有 TCR 识别的计算模型难以泛化至该高度多样化的 TCR 空间;

2 )已知肽段 -TCR 配对数据服从长尾分布 (Long-tail )( 图1 ),训练数据样本分布严重不均衡,少量的肽段拥有大量已知 TCR 结合数据(头部肽段),但大部分肽段仅记录了少量已知的 TCR 结合 信息(尾部肽段) 直接基于此数据构建传统的监督式学习模型会使得模型倾向于学习头部样本的 TCR 结合模式,但难以泛化至尾部样本( Few shot )的亲和力预测;

3 )肿瘤新生抗原,外源性肽段等对于免疫系统来说是未见的新生抗原,对于该类抗原的 TCR 识别是 免疫治疗 和细胞治疗的关键。但该类抗原的 TCR 亲和力识别属于 AI 领域的零样本识别问题( Z ero shot ),现有的计算模型无法解决。

-TCR 结合数据 服从长尾分布

日,生命科学与技术学院生物信息学系、上海自主智能无人系统科学中心刘琦教授课题组在 国际人工智能 领域顶级期刊 Nature Machine Intelligence 上发表了题为: Pan-Peptide Meta Learning for T-Cell Receptor-Antigen Binding Recognition 的论文,发布了普适有效的抗原-TCR 亲和力预测的AI 模型PanPep 。面向上述pMHC-TCR 亲和力识别中的挑战和瓶颈,创新性地提出了基于元学习(Meta Learning )和神经图灵机(Neural Turning Machine )的AI 计算框架,通过模拟人类对于已知任务的存储记忆和新任务的类比学习机制,有效地解决上述 数据的长尾分布识别问题:即面向尾部 肽段(Few shot )和肿瘤新生抗原或外源性肽段(Zero shot 进行 TCR 亲和力识别。实验证明PanPep 在三种应用场景Majority learning 、Few-shot learning 以及Zero-shot learning 场景中均取得了较高的抗原-TCR 预测准确率。

PanPep 算法框架 ( 图2 ) 包含了元学习模块和解耦蒸馏 ( Disentanglement distillation) 模块。其中,针对已知数据的长尾效应,元学习模块采用了 Model-Agnostic Meta Learning MAML )计算框架。模型假设每一个肽段具有其特异性的 TCR 结合模式,因此每一个肽段下的 TCR 结合识别任务被 当作 MAML 中的一个任务,且肽段表征的分布即为任务的分布。基于这些肽段任务( Peptide-specific task ),元学习模块能够仅基于少量训练样本在不同任务中快速泛化。而对于诸多未见的肽段,例如新生抗原、外源性抗原等肽段,由于缺乏已知的 TCR 结合信息,无法通过对于元学习模块进行微调使其快速泛化到该任务上,故研究团队受启发于神经图灵机( NTM )通过外部记忆模块避免学习遗忘这一机制,创新性的开发了解耦蒸馏模块,借助以往学习任务所获得的经验,对于未见的新肽段的 TCR 结合识别任务进行泛化,从而实现零样本学习。

图2 PanPep算法框架

该工作中,研究团队首先将该算法与同类算法在三种测试场景( Majority Few-shot Zero-shot 场景)中进行比较, PanPep 在保持 Majority 场景的预测性能的同时,在 F ew-shot Z ero-shot 场景中均 获得了 最优的 预测性能 )。特别的,现有工具在 Z ero-shot 场景下均无预测能力,表明现有计算工具无法对于免疫系统未见的新肽段进行 TCR 亲和力识别。进而,研究团队进一步证明了 PanPep 可以有效地应用于 : 1 T 细胞克隆扩增的定量识别;( 2 )肿瘤新生抗原刺激下的 T 细胞识别;( 3 )新冠病毒的抗原 -TCR 识别 。实验 表明 PanPep 在肿瘤新生抗原预测、突发病毒的免疫学 机制研究 ,抗原抗体设计、 TIL 细胞疗法等诸多领域具有广泛的应用价值。

3 PanPep 性能比较

元学习和目前领域内流行的大模型 ( C hatGPT ) 均是通往通用人工智能( A GI Artificial General Intelligence )的可能有效途径。本工作是应用和发展元学习理论解决生物组学数据长尾分布和小样本问题的有益尝试,是 AI for Life Science” 的一个典型成功案例。该 工作获得了审稿人的高度评价,评审认为: conceptually very sound and a major algorithm advance ,  motivate the development of meta learning in bioinformatics 该工作被 Nature Machine Intelligence H ighlight, 并将 当期特邀密苏里大学计算机科学系 系主任,美国科学促进会( AAAS )会士和美国医学和生物工程研究院( AIMBE )会士 Dong Xu 教授撰写 Highlight View: “Meta-learning for T cell-receptor binding specificity and beyond” 。在该 View 中, Dong Xu 教授绘制了 一个全面系统 的框架图,清晰的总结了 PanPep 计算模型的基本思路,并指出了生物数据中普遍存在的长尾分布特征 和本工作在解决长尾分布和小样本学习上的重要价值 4 )。 Dong Xu 教授认为 “PanPep provides a pioneering example of using meta-learning” “delivered a great promise of using meta learning to address bioinformatics' long tail distribution problems”


4 Pan Pep 框架图和生物数据的长尾分布

刘琦教授课题组长期致力于组学人工智能驱动的精准医学研究和转化实践。 该论文第一作者是刘琦教授课题组的高溢骋、高雨莉博士,通讯作者是刘琦教授。 本项目受到国家自然科学基金,上海市人工智能科技重大专项以及国家重点研发计划 B T&IT 专项资助。课题组( h ttps://bm2.tongji.edu.cn )常年招收研究生,博士后和科研助理。