【科研成果】Nat Mach Intell | 李洪林/张凯团队开发基于Sliding-Transformer的肿瘤新抗原识别算法PISTE

发布者：何靖宇发布时间：2024-10-10 浏览次数： 86

2024年9月27日，华东师范大学药学院 / 华东理工大学药学院、人工智能新药创智中心李洪林团队、华东师范大学计算机学院张凯团队，联合复旦大学类脑智能科学与技术研究院张捷团队、上海市第六人民医院胡晓勇团队等多家单位在 Nature Machine Intelligence 发表题为 “ Sliding-attention transformer neural architecture for predicting T cell receptor-antigen-human leucocyte antigen binding ” 的研究论文。

该研究提出了一种名为PISTE的神经网络算法，用于TCR-抗原-HLA结合预测和肿瘤新抗原筛选。该算法通过在Transformer模型中引入了新颖的生物/物理先验，采用物理驱动的动力学取代传统的、数据驱动的Transformer注意力机制，从而引导氨基酸残基沿着相互作用的梯度场逐步定位，允许智能地导航生物序列相互作用的复杂景观。PISTE对TCR-抗原-HLA结合预测的精度达到90%以上，为揭示残基水平相互作用和人类免疫反应的分子基础提供清晰图景。在对前列腺癌的前瞻性研究中，75%的患者通过PISTE预测的新抗原引发了免疫反应，显示了其推动基于新抗原的癌症免疫治疗研究的巨大潜力。这项研究不仅体现了人工智能、药学、临床医学与计算科学的交叉融合，还强调了多学科团队合作在推动医学前沿研究中的关键作用。

研究背景

新抗原源于肿瘤细胞基因突变产生的短肽序列，具有特异性高、毒性低、易于个体化等特点，可引起免疫应答，清除癌细胞，是免疫治疗的重要靶点。基于新抗原的免疫疗法具有治疗癌症的潜力，包括个性化疫苗和T细胞疗法等。然而，在人类肿瘤中产生的众多候选肽中，只有极少数能够触发患者的抗肿瘤反应。因此，从大量多组学数据中预测真正能引发免疫反应的新抗原成为困难但关键的挑战：新抗原引发免疫反应的关键因素在于三种高度多态性的生物序列（TCR、抗原、HLA）之间的复杂相互作用，需要从多样化的序列组合库中识别真正有效的TCR-抗原-HLA三元组；此外，传统Transformer模型的注意力机制缺乏清晰物理意义的残基相互作用评估，且TCR-抗原-HLA的三维结构数据相对匮乏，会导致高昂的实验成本。因此，构建既具物理可解释性又具数据高效性的预测模型，对加深人类免疫反应的理解尤为重要；同时，生物序列在个体间存在显著差异，尤其是TCR组成和抗原存在极大多样性，如何使模型捕捉到残基相互作用的内在规律并能够有效推广至罕见序列，仍然是一个亟待解决的重要问题。目前，针对这些挑战的全面解决方案仍显不足。

研究内容

研究团队开发了一种新颖的“物理启发的滑动Transformer”算法—— Physics Inspired Sliding TransformEr (PISTE) ，用于TCR-抗原-HLA结合预测和肿瘤新抗原筛选（图1）。PISTE算法的设计包括三个主要组成部分：1) 序列编码器模块提取抗原/HLA/TCR序列特征；2）Sliding Transformer模块基于空间紧密度和残基相互作用趋势，通过迭代优化来引导残基定位，模拟生物序列相互滑动的过程。首先模拟抗原序列在HLA序列上的滑动，得到HLA-抗原复合物表示，再模拟TCR序列在该HLA-抗原组合上的滑动，得到更新后的三元组表示；3）池化模块用于得到三个序列的固定维度（HLA序列的稳定三维结构作为参考骨架）的表示，用于预测三元复合物整体结合状态。

图1 PISTE用于HLA-抗原-TCR结合预测及新抗原筛选。(a) 新抗原筛选工作流程图。(b) PISTE构架图，包括encoder模块，sliding模块和pooling模块 ^[5]

作者将PISTE在多个负采样方法的数据集上进行综合评估，包括：random shuffling、unified peptide和reference TCR负采样。结果表明，与8个现有方法相比，PISTE在AUROC、AUPR、PPVn指标上具有出色的预测性能（图2a, 3a-b）。同时，作者利用t-SNE聚类分析验证PISTE可以学习到参与不同结合结果的生物序列的区别特征（图2b）。

图2 PISTE预测性能。(a) Random shuffling采样方式的AUROC, AUPR和PPVn。(b) 通过PISTE获得3种pHLA的TCR特征的t-SNE聚类图 ^[5]

图3 PISTE预测性能。(a) Unified peptide采样方式性能。(b) Reference TCR采样方式性能 ^[5]

此外，作者通过对PISTE模型的可解释性分析发现滑动注意力机制可以揭示物理上有意义的残基相互作用模式。结果表明，尽管PISTE不使用任何结构数据进行训练，但PISTE注意矩阵与3D晶体结构显示的实际成对残基接触矩阵具有良好的相关性（图4）。其中，TCR-抗原接触矩阵相关系数为0.915，HLA-抗原接触矩阵相关系数为0.75。

图4 PDB数据集中86个TCR-抗原- HLA复合物的平均真实残基接触矩阵与PISTE预测残基接触矩阵的关系 ^[5]

为了进一步证明PISTE可以作为临床上的有用工具，作者开展了几项深入的免疫学研究，包括：(1) 检测抗原驱动T细胞扩增（图5a-b）；（2）识别肿瘤微环境中的免疫原性新抗原并验证免疫原性新抗原负荷作为免疫检查点抑制剂治疗预后标志物的潜力（图5c-e）；（3）筛选和验证个性化新抗原诱导前列腺癌患者的T细胞免疫反应（图6）。这些研究为更好地理解PISTE的临床应用提供了重要的科学依据，有助于推动个性化肿瘤免疫治疗的发展。

图5 通过PISTE检测T细胞扩增 (a,b) 和验证免疫原性新抗原负荷的预后效果 (c-e) ^[5]

图6 PISTE筛选的前列腺癌患者新抗原刺激T细胞反应的验证 ^[5]

总结

综上所述，PISTE的滑动注意力机制既继承了传统数据驱动的注意机制的灵活性，又继承了物理原理的规律性。其不仅在准确性和可解释性上取得了显著进步，还展现了广泛的临床应用前景，为精准医学和个性化癌症免疫治疗的发展提供了新思路和技术支持。

冯紫燕、陈劲杨、海有龙、庞雪莲为本研究的共同第一作者，参与本研究工作的还有华东理工大学药学院朱丽丽副教授、复旦大学附属华山医院李圣青教授、郑州大学基础医学院刘康栋教授等。相关算法和软件已申请专利和软件著作权保护。该工作得到了中国国家自然科学基金（82425104, 81825020, 82150208, 62276099, 82173690）和国家重点研发计划（2022YFC3400501）的资助。

参考文献

[1] Xie N, Shen G, Gao W , et al. Neoantigens: promising targets for cancer therapy . Signal transduction and targeted therapy . 2023, 8(1): 9 .

[2] Katsikis P D, Ishii K J, Schliehe C. Challenges in developing personalized neoantigen cancer vaccines. Nature Reviews Immunology . 202 4, 24(3): 213-227.

[3] Hudson D, Fernandes R A, Basham M, et al. Can we predict T cell specificity with digital biology and machine learning?. Nature Reviews Immunology , 2023 , 23(8): 511-521.

[4] Lybaert L, Lefever S, Fant B, et al. Challenges in neoantigen-directed therapeutics . Cancer Cell , 2023, 41(1): 15-40.

[5] Feng Z, Chen J, Hai Y. et al. Sliding-attention transformer neural architecture for predicting T cell receptor–antigen–human leucocyte antigen binding. Nature Machine Intelligence , 2024. https://doi.org/10.1038/s42256-024-00901-y.

原文链接： https://www.nature.com/articles/s42256-024-00901-y

供稿：冯紫燕

编辑：汤荣凡

华东师范大学/华东理工大学/上海市新药设计重点实验室/李洪林教授课题组