编辑 | 萝卜皮

适应性免疫受体(AIR,包括 T 细胞受体,TCR;B 细胞受体,BCR)与其同源抗原之间的结构对接是适应性免疫中最基本的过程之一。然而,目前预测 AIR-抗原结合的方法很大程度上依赖于 AIR 的序列衍生特征,忽略了结合亲和力所必需的结构特征。

腾讯 AI Lab 的研究人员提出了一个名为 DeepAIR 的深度学习框架,通过整合 AIR 的序列和结构特征来准确预测 AIR 与抗原的结合。

DeepAIR 在预测 TCR 的结合亲和力方面实现了 0.813 的 Pearson 相关性,在预测 TCR 和 BCR 的结合反应性方面的接受者操作特征曲线(AUC)下面积中值分别为 0.904 和 0.942。

同时,利用 TCR 和 BCR 库,DeepAIR 在测试数据中正确识别出每一位患有鼻咽癌和炎症性肠病的患者。因此,DeepAIR 改进了 AIR-抗原结合预测,促进了适应性免疫的研究。

该研究以「DeepAIR: A deep learning framework for effective integration of sequence and 3D structure to enable adaptive immune receptor analysis」为题,于 2023 年 8 月 9 日发布在《Science Advances》。

适应性免疫受体(AIR)识别抗原以激活随后的免疫反应,从而清除肿瘤细胞和入侵的病原体。T 细胞受体 (TCR) 和 B 细胞受体 (BCR) 是 AIR 的两种主要类型。TCR 与细胞表面主要组织相容性复合物(即肽-MHC、pMHC)呈递的肽(抗原)结合,而 BCR 直接识别天然抗原和同源抗原。准确识别 AIR 抗原识别对于了解适应性免疫系统以及设计免疫疗法和疫苗至关重要。

高通量批量测序技术已广泛应用于分析 V(D)J 基因和 AIR 的克隆多样性。V(D)J 基因的此类序列数据的可用性允许根据序列衍生特征对识别相同抗原的 AIR 进行聚类。

然而,高通量批量测序技术通常仅捕获 AIR 的一条链,这不足以描绘受体的完整序列特征,从而阻碍了基于序列特征的 AIR 抗原识别的可靠预测模型的开发。单细胞免疫组库测序技术的最新进展已经能够捕获受体的两条链,为构建 AIR 抗原结合预测模型提供完整的 V(D)J 基因测序数据。大多数 AIR-抗原结合预测模型侧重于结合反应性(或称为结合特异性)的预测,即 AIR 是否与特定抗原结合。

建立可靠的 AIR-抗原结合预测模型可以帮助适应性免疫系统的实验研究。目前的模型,如 DeepTCR、TCRAI 和 soNNia,都是基于 AIR 的序列信息。然而,AIR 的结构在识别抗原并与抗原相互作用方面发挥着重要作用。

虽然实验成本高昂而导致缺乏 AIRs 的结构数据,但由于最近蛋白质结构预测器 AlphaFold2 的突破,已经提供了大量准确预测的AIRs结构数据。现在可以研究如何使用预测的 AIR 结构来增强 AIR 分析的计算模型,包括 AIR 抗原结合预测和免疫库分类。

深度学习用于结构增强的 AIR 分析

腾讯 AI Lab 的研究人员提出了一个名为 DeepAIR 的深度学习框架,用于结构增强的 AIR 分析。DeepAIR 的功能包括 AIR 抗原结合预测和免疫库分类。DeepAIR 使用专门设计的基于门控的注意力机制和张量融合机制,利用 AlphaFold2 预测的 AIR 结构信息来进行 AIR 抗原结合预测。

图示:构建 DeepAIR 的计算框架。(来源:论文)

在预测 AIR 抗原结合反应性方面,DeepAIR 显著优于基于序列的方法,包括 DeepTCR、TCRAI 和 soNNia。该团队创建了两个版本的 DeepAIR,包括基于结构的 DeepAIR-stru 和基于序列的 DeepAIR-seq,以研究结构信息对 DeepAIR 性能的贡献。

实验表明,DeepAIR-stru 显著优于 DeepTCR、TCRAI 和 soNNia,而 DeepAIR-seq 并未达到最佳预测性能。性能比较表明,结构信息的集成促成了 DeepAIR 的优越性能。DeepAIR 成功捕获了抗原结合 AIR 的结构模式,以将其与其他 AIR 区分开来。

图示:DeepAIR 与 SOTA 方法在 AIR 抗原结合反应性预测方面的性能比较。(来源:论文)

DeepAIR 使用 AlphaFold2 预测的 AIR 结构。使用预测结构的主要优点是 DeepAIR 可以分析任何 AIR,只要其序列信息可用于结构预测。这对于 AIR 分析至关重要,因为实验验证的结构不适用于免疫库中的大多数 AIR。

此外,根据第14届蛋白质结构预测批判性评估(CASP14)的结果,AlphaFold2表现出与实验结构相媲美的高精度。分析表明,使用全序列的 AIR CDR3 区域的中位预测精度与 CASP14 中实现的 AlphaFold2 的中位精度相当。

因此,研究人员认为在 DeepAIR 中使用 AlphaFold-2 预测的结构是可靠的。然而,预测结构的准确性仍然影响DeepAIR-stru的性能。为了减轻预测结构引入的这种偏差,DeepAIR 还使用多模态特征融合模块集成序列和基因特征的信息,共同促进其预测。DeepAIR 的性能明显优于 DeepAIR-stru 和 DeepAIR-seq。它揭示了融合模块中基于门控的注意力和张量融合机制成功地从结构和序列中提取了可区分的特征,以实现卓越的性能。

图示:DeepAIR 和 DeepTCR T 细胞受体结合亲和力预测的性能比较。(来源:论文)

DeepAIR 是一个可解释的模型,它显示 α 链和 β 链中的重要残基,这些残基对于使用注意力权重的 AIR-抗原结合很重要。多项研究表明β链接触残基在AIR-抗原结合中的重要性,这也可以通过基于序列的深度学习模型来学习。

DeepAIR 可以突出显示 β 链上的重要残基,即 β 链和抗原之间的接触残基。DeepAIR 还可以识别 α 链上与 β 链接触的关键残基,从而稳定 AIR 结构,从而有助于 AIR 与抗原之间的结合亲和力。大多数AIR-抗原研究集中在AIR的β链及其与抗原的接触残基上。DeepAIR 通过突出显示 α 链和 β 链中结构和功能上重要的残基,进一步能够检查 AIR-抗原复合物的稳定性。

新方法也存在局限性

目前的 DeepAIR 还存在一些局限性。

首先,该研究中使用的 TCR-pMHC 结合亲和力值是通过 pMHC 捕获的 TCR 的 UMI 计数来呈现的,而不是真实的结合亲和力,因为测量 TCR 和 pMHC 之间的真实结合亲和力具有挑战性。尽管形状互补统计和埋藏表面积经常被用来描述 TCR-pMHC 相互作用,但它们都不是 TCR-pMHC 结合亲和力的可靠指标。

其次,由于 BCR 抗原结合亲和力数据的可用性有限,该研究没有评估 DeepAIR 在预测 BCR 抗原结合亲和力方面的性能。由于来自同一 B 细胞的 BCR 和抗体具有几乎相同的抗原结合亲和力,因此 BCR-抗原结合亲和力的预测可能与抗体-抗原结合亲和力的预测基本相同。

随着未来更多数据的出现,研究人员将结合这两项任务,研究 DeepAIR 对抗体(BCR)-抗原结合亲和力的预测能力。

当前 DeepAIR 框架的第三个限制是缺乏有关抗原的任何实际信息。这导致开发的模型的抗原覆盖范围仅限于训练数据中包含的目标子集。未来该团队将在建模中添加抗原序列和结构。

另一个限制是 AlphaFold2 预测的 AIR 结构是未配体的。然而,众所周知,TCR 的 CDR3 环在 pMHC 结合后会发生构象变化。类似的情况也发生在抗原结合的 BCR 中。AIR结构的构象变化会影响AIR与抗原的结合;然而,AlphaFold2 无法预测这些变化。能够准确预测抗原结合后 AIR 结构构象变化的先进方法无疑将有利于 AIR 抗原识别的研究。

并且,作为通用的蛋白质结构预测工具,AlphaFold2的预测模型对于预测AIR的结构并没有进行优化。预测结构精度的提高可以极大地提高类似 DeepAIR 的基于结构的方法的性能。

最后,对于包含大量不同 AIR 的免疫库,使用 AlphaFold2 预测免疫库中每个 AIR 的结构非常耗时。为了解决这个问题,专门针对 AIR 结构设计和优化的更轻、更快的预测模型将极大有利于未来 DeepAIR 和其他基于结构的策略。

结语

总之,DeepAIR 是一个全面且可解释的深度学习框架,用于集成序列和结构信息的 AIR 抗原结合分析。DeepAIR 在 AIR 抗原结合反应性方面表现出出色的预测性能,并且优于 SOTA 预测器。研究人员预计 DeepAIR 可能成为分析与抗原高度相互作用的 AIR 的重要工具,从而更好地为个性化免疫疗法的设计提供信息。

论文链接:https://www.science.org/doi/full/10.1126/sciadv.abo5128 返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。