T
细胞受体(
T-cell receptor, TCR
)是获得性免疫过程中的关键分子。
TCR
经过
特定的基因重组和进化筛选,具备高度的多样性及特异性。
MHC-
多肽复合物与
TCR
亲和力的计算识别(
pMHC-TCR binding recognition
)是
揭示肿瘤、自身免疫性疾病和病毒感染性疾病等疾病发生发展机制的重要手段,也是计算免疫学领域基本而又极具挑战的问题,其挑战性具体体现为:
(
1
)
TCR
空间呈现高度多样性,现有
TCR
识别的计算模型难以泛化至该高度多样化的
TCR
空间;
(
2
)已知肽段
-TCR
配对数据服从长尾分布
(Long-tail
)(
图1
),训练数据样本分布严重不均衡,少量的肽段拥有大量已知
TCR
结合数据(头部肽段),但大部分肽段仅记录了少量已知的
TCR
结合
信息(尾部肽段)
。
直接基于此数据构建传统的监督式学习模型会使得模型倾向于学习头部样本的
TCR
结合模式,但难以泛化至尾部样本(
Few shot
)的亲和力预测;
(
3
)肿瘤新生抗原,外源性肽段等对于免疫系统来说是未见的新生抗原,对于该类抗原的
TCR
识别是
免疫治疗
和细胞治疗的关键。但该类抗原的
TCR
亲和力识别属于
AI
领域的零样本识别问题(
Z
ero shot
),现有的计算模型无法解决。
图
-TCR
结合数据
服从长尾分布
近
日,生命科学与技术学院生物信息学系、上海自主智能无人系统科学中心刘琦教授课题组在
国际人工智能
领域顶级期刊
Nature Machine Intelligence
上发表了题为:
Pan-Peptide Meta Learning for T-Cell Receptor-Antigen Binding Recognition
的论文,发布了普适有效的抗原-TCR
亲和力预测的AI
模型PanPep
。面向上述pMHC-TCR
亲和力识别中的挑战和瓶颈,创新性地提出了基于元学习(Meta Learning
)和神经图灵机(Neural Turning Machine
)的AI
计算框架,通过模拟人类对于已知任务的存储记忆和新任务的类比学习机制,有效地解决上述
数据的长尾分布识别问题:即面向尾部
肽段(Few shot
)和肿瘤新生抗原或外源性肽段(Zero shot
)
进行
TCR
亲和力识别。实验证明PanPep
在三种应用场景Majority learning
、Few-shot learning
以及Zero-shot learning
场景中均取得了较高的抗原-TCR
预测准确率。
PanPep
算法框架
(
图2
)
包含了元学习模块和解耦蒸馏
(
Disentanglement distillation)
模块。其中,针对已知数据的长尾效应,元学习模块采用了
Model-Agnostic Meta Learning
(
MAML
)计算框架。模型假设每一个肽段具有其特异性的
TCR
结合模式,因此每一个肽段下的
TCR
结合识别任务被
当作
MAML
中的一个任务,且肽段表征的分布即为任务的分布。基于这些肽段任务(
Peptide-specific task
),元学习模块能够仅基于少量训练样本在不同任务中快速泛化。而对于诸多未见的肽段,例如新生抗原、外源性抗原等肽段,由于缺乏已知的
TCR
结合信息,无法通过对于元学习模块进行微调使其快速泛化到该任务上,故研究团队受启发于神经图灵机(
NTM
)通过外部记忆模块避免学习遗忘这一机制,创新性的开发了解耦蒸馏模块,借助以往学习任务所获得的经验,对于未见的新肽段的
TCR
结合识别任务进行泛化,从而实现零样本学习。
图2 PanPep算法框架
该工作中,研究团队首先将该算法与同类算法在三种测试场景(
Majority
,
Few-shot
和
Zero-shot
场景)中进行比较,
PanPep
在保持
Majority
场景的预测性能的同时,在
F
ew-shot
和
Z
ero-shot
场景中均
获得了
最优的
预测性能
(
图
)。特别的,现有工具在
Z
ero-shot
场景下均无预测能力,表明现有计算工具无法对于免疫系统未见的新肽段进行
TCR
亲和力识别。进而,研究团队进一步证明了
PanPep
可以有效地应用于
:
(
1
)
T
细胞克隆扩增的定量识别;(
2
)肿瘤新生抗原刺激下的
T
细胞识别;(
3
)新冠病毒的抗原
-TCR
识别
。实验
表明
PanPep
在肿瘤新生抗原预测、突发病毒的免疫学
机制研究
,抗原抗体设计、
TIL
细胞疗法等诸多领域具有广泛的应用价值。
图
3
:
PanPep
性能比较
元学习和目前领域内流行的大模型
(
如
C
hatGPT
等
)
均是通往通用人工智能(
A
GI
,
Artificial
General
Intelligence
)的可能有效途径。本工作是应用和发展元学习理论解决生物组学数据长尾分布和小样本问题的有益尝试,是
“
AI for Life Science”
的一个典型成功案例。该
工作获得了审稿人的高度评价,评审认为:
conceptually very sound and a major algorithm advance , motivate the development of meta learning in bioinformatics
。
该工作被
Nature Machine Intelligence
H
ighlight,
并将
当期特邀密苏里大学计算机科学系
前
系主任,美国科学促进会(
AAAS
)会士和美国医学和生物工程研究院(
AIMBE
)会士
Dong Xu
教授撰写
Highlight View: “Meta-learning for T cell-receptor binding specificity and beyond”
。在该
View
中,
Dong Xu
教授绘制了
一个全面系统
的框架图,清晰的总结了
PanPep
计算模型的基本思路,并指出了生物数据中普遍存在的长尾分布特征
和本工作在解决长尾分布和小样本学习上的重要价值
(
图
4
)。
Dong Xu
教授认为
“PanPep provides a pioneering example of using meta-learning”
,
“delivered a great promise of using meta learning to address bioinformatics' long tail distribution problems”
。
图
4
:
Pan
Pep
框架图和生物数据的长尾分布
刘琦教授课题组长期致力于组学人工智能驱动的精准医学研究和转化实践。
该论文第一作者是刘琦教授课题组的高溢骋、高雨莉博士,通讯作者是刘琦教授。
本项目受到国家自然科学基金,上海市人工智能科技重大专项以及国家重点研发计划
B
T&IT
专项资助。课题组(
h
ttps://bm2.tongji.edu.cn
)常年招收研究生,博士后和科研助理。