相关文章推荐
欢快的青蛙  ·  SpringBoot-30-RestTemp ...·  1 年前    · 
爱看书的小狗  ·  javascript - ...·  1 年前    · 
低调的马克杯  ·  process has ...·  1 年前    · 

撰写:米妮 来源:小张聊科研平台的“i生信”公众号,微信公众号搜索“i生信”即可关注见文末

T 和 B 细胞都可以通过体细胞 V(D)J 重组产生不同的受体(分别为 TCR 和 BCR)库,以识别各种外部抗原或肿瘤新抗原。抗原识别后,BCR 还会发生体细胞超突变 (SHM),以进一步提高抗原结合亲和力。

免疫组库测序可对 机体免疫组库多样性及每种 T、B细胞克隆的独特性序列组成/变化进行分析,从而全面评估机体的免疫状态,明确疾病与T、B细胞克隆组成及变化之间的关系。随着免疫组库高通量测序技术的不断发展和成熟,基于免疫组库多样性变化特点的生物标志物发现、肿瘤等疾病疗效预测、疾病的易感性和抵抗性、感染性疾病及疫苗研究等方面都取得了重要进展。

但是当你的组织样本或课题经费有限时,你如何不花钱来获取免疫组库呢? 教你一个可靠的算法,利用TRUST4开源算法,直接从组织或血液RNA-seq数据从头组装获得免疫组库。虽然不如 免疫组库测序敏感,但TRUST比现有的其他重构算法(V'DJer 、MiXCR 、CATT 和 ImRep )能够在更完整测序全长上推断受体-抗体作用模式。

TRUST4: immune repertoire reconstruction from bulk and single-cell RNA-seq data

(https://pubmed.ncbi.nlm.nih.gov/33986545/)

那它真的可靠可行吗?现在我们了解下这个TRUST4算法

RNA-seq 数据包含组织或外周血单核细胞 (PBMC) 中表达的 TCR 和 BCR 序列,由于来自 V(D)J 重组和 SHM 的库序列与种系不同,它们通常在读取映射步骤中被消除。所以可用RNA-seq 来重构免疫组库数据。如图1 a, 首先TRUST4 支持从 FASTQ 或 BAM 文件中快速提取 TCR/BCR 候选reads; 然后TRUST4 按丰度对候选reads组装并进行优先级排序,并将候选reads组装为contigs,从而提高算法速度;TRUST4能明确contigs中高度相似的reads,从而识别体细胞超突变并提高记忆效率;并且TRUST4 可以在 TCR 和 BCR 上组装全长 V(D)J 序列。最后,TRUST4 支持从 scRNA-seq 平台重建库,而无需额外的 10x V(D)J 扩增。

利用TRUST4 从Bulk RNA-seq 重构 TCR/BCR的性能评估

对于 TCR 评估:使用已知 TRB 序列的 silico RNA-seq 数据集进行测试,如图1b, TRUST4 重构的 CDR3 比 MiXCR 多 281%,比 CATT 多 22.9%,比 TRUST3 多 57.8%,并且在不同的读取长度上保持零假阳性率。

对于 BCR 评估:使用了六个肿瘤 RNA-seq 样本约 1 亿对 150 个碱基对 (bp) 读数,并使用相应的免疫球蛋白重链 (IGH) BCR-seq 作为金标准,在六个样本中的五个样本中,TRUST4 显示出比 MiXCR 更好的精度(>18%)和灵敏度(>74%)(图1c)。

对于基础水平的全长组装评估:从 137 个 SMART-seq B 细胞中随机选择 2,500 万个reads对作为测试用例来创建伪批量 RNA-seq 数据。为了建立 BCR 调用的黄金标准,使用了 BALDR 和 BASIC 在单细胞水平上一致调用的 128 个 IGH 组件。TRUST4 和 MiXCR 正确识别了所有 128 个 CDR3,TRUST4 重构了93 个全长 IGH 序列,而 MiXCR 仅发现了 39 个(图1d)。

利用TRUST4 从sc RNA-seq 重构 TCR/BCR的性能评估

利用PBMC 上 5' 10x Genomics scRNA-seq 数据来进行性能评估(图2a),TRUST4 对5,091 个 T 细胞和 1,318 个 B 细胞进行免疫组库的重构,把对应的T 细胞和 B 细胞 10x V(D)J 库作为黄金标准。在免疫组库的全长重构的分析中,体细胞超突变率由重构的 V 基因和germline序列之间碱基匹配比例(相似性)表示(图2c)。在 10x V(D)J 报告的 CDR3 中,TRUST4 恢复了 48.1% (6,035/12,558) 的 TCR CDR3 和 78.0% (1,946/2,494) 的 BCR CDR3。TRUST4 对 BCR 的较高敏感性是由于 B 细胞中 BCR 的表达水平较高。在精度上, TRUST4 的 94.6% 的 TCR CDR3 和 98.2% 的 BCR CDR3 与 10x V(D)J 相同(图3b)。

利用10x Genomics 非小细胞肺癌 (NSCLC) 数据集进行评估:TRUST4 从 144 个 Seurat 注释的血浆 B 细胞中重构了 142 个 IGH CDR3,而 10x V(D)J 只发现了 131 个,TRUST4 还重构了 104 个细胞的全长配对 BCR,观察到了IGHs 和 IGK/IGLs 之间的 SHM 率的高度相关性(图3b右)。

这样的性能比拼下来,在资金调度紧缺和样本难获取情况下,利用TRUST4来免费获取免疫组库不失为一个好办法,TRUST4 可以直接从 5' 10x Genomics scRNA-seq 数据重构单细胞水平的免疫受体库,包括 γδT 细胞,而无需特定的 10x V(D)J 富集文库。赶快试试用起来~

TRUST4 可在https://github.com/liulab-dfci/TRUST4获取。

下载:git clone https://github.com/liulab-dfci/TRUST4.git

安装进入下载地址:run ‘make’ 进行编译安装

查看安装是否成功:

输入/输出

TURST4 的主要输入 :BAM 格式的 RNA-seq 读数的比对文件(-b),基因组序列和 V、J、C 基因坐标的文件(-f),以及参考数据库序列包含的注释信息,例如 IMGT 数据库(--ref)。

TRUST4 的另一个输入 :fasta/fastq 格式的RNA-seq原始 文件(-1/-2 表示测序方式;-u 表示单端)。仍然需要上面的 -f、--ref 之类的文件。这种情况下,可以直接使用IMGT的seuqence文件进行-f。

TRUST4 输出结果文件 :trust_raw.out, trust_final.out 为contigs和相应的核苷酸权重。trust_annot.fa 为 fasta 格式,用于重构的注释。trust_cdr3.out 报告每个重构CDR1、2、3 和基因信息。trust_report.tsv是一个专注于CDR3的报告文件,和其他分析工具 如VDJTools等兼容。

trust_annot.fa的结果表头为:

consensus_id consensus_length average_coverage annotations

对于基因的注释采用以下模式:

gene_name(reference_gene_length):(consensus_start-consensus_end):(reference_start-reference_length):similarity

对于CDR的注释,它为以下模式:

CDRx(consensus_start-consensus_end):score=sequence

对于 CDR1,2,score是相似性。对于 CDR3,score 0.00 表示部分 CDR3,得分 1.00 表示带有估算核苷酸的 CDR3,其他数字表示motif信号强度,100.00 表示最强。

trust_cdr3.out的输出为tsv文件,tsv的列名为:

consensus_id index_within_consensus V_gene D_gene J_gene C_gene CDR1 CDR2 CDR3 CDR3_score read_fragment_count CDR3_germline_similarity full_length_assembly

trust_report.tsv的输出也为tsv文件, 报告列名为:

read_count frequency(proportion of read_count) CDR3_dna CDR3_amino_acids V D J C consensus_id consensus_id_full_length

自定义构建V、J、C基因数据库(用于-f和-ref 的文件)

要生成“-f”指定的文件,可感兴的物种的参考基因组和基因组注释GTF文件生成,使用如下命令:

perl BuildDatabaseFa.pl reference.fa annotation.gtf human_vdjc.list > bcrtcr.fa

“--ref”指定的文件是从IMGT网站(http://www.imgt.org//download/V-QUEST/IMGT_V-QUEST_reference_directory/)下载的,例如人类,可以使用命令:

perl BuildImgtAnnot.pl Homo_sapien > IMGT+C.fa

10X数据

对于 10X Genomics 数据,通常输入的是来自 cell-ranger 的 BAM 文件,可以使用“--barcode”指定 BAM 文件中的字段来指定条形码:例如“--barcode CB”。

如果输入的是原始 FASTQ 文件,可以使用“--barcode”指定条码文件,并使用“--barcodeRange”告诉 TRUST4 如何提取条码信息。如果条码或UMI序列在read序列中,可以使用“--read1Range”、“--read2Range”告诉TRUST4如何提取reads中的序列信息。TRUST4 支持在 -1 -2/-u 选项中使用通配符,因此运行 10X Genomics 单端数据的典型方法是:

run-trust4 -f hg38_bcrtcr.fa --ref human_IMGT+C.fa -u path_to_10X_fastqs/*_R2_*.fastq.gz --barcode path_to_10X_fastqs/*_R1_*.fastq.gz --barcodeRange 0 15 + --barcodeWhiteList cellranger_folder/cellranger-cs/VERSION/lib/python/cellranger/barcodes/737K-august-2016.txt [other options]

选项取决于10X Genomics 试剂盒类型

SMART-Seq 数据

使用“trust-smartseq.pl”来处理来自 SMART-seq 等平台的文件,示例:

perl trust-smartseq.pl -1 read1_list.txt -2 read2_list.txt -t 8 -f hg38_bctcr.fa --ref human_IMGT+C.fa -o TRUST

生成简单的报告

可利用“trust-simplerep.pl”对TRUST4的输出结果进行简化,得到更简单的输出报告

perl trust-simplerep.pl trust_cdr3.out > trust_report.out

BAM 文件输入:

./run-trust4 -b example/example.bam -f hg38_bcrtcr.fa --ref human_IMGT+C.fa

fastq 文件输入:

./run-trust4 -f human_IMGT+C.fa --ref human_IMGT+C.fa -1 example/example_1.fq -2 example/example_2.fq -o TRUST_example

TRUST4开源免费使用,更多的使用方法从一下网站获取~https : //github.com/liulabdfci/TRUST4_manuscript_evaluation

查看原文: https://mp.weixin.qq.com/s/_gDd5x_vJ0UmUCJeqnnDLQ

注:本推文未经许可禁止转载。

阅读推荐:

  • 工具篇丨学会这个基因分析工具,你离CNS不远了!
  • 工具篇 | 这个R包,让你迅速提升SCI文章的逼格!
  • 工具篇 | 五一长假这就结束了,你不会连这个数据库都还不会用吧?
  • 工具篇 | OncoVar:研究癌症突变,这个数据库太太太太太太有用了!
  • 工具篇丨不想用R语言也想做通路分析?建议收藏这个万能网站!
  • 返回搜狐,查看更多

    责任编辑:

    平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。