CytoTRACE (Cellular (Cyto) Trajectory Reconstruction Analysis using gene Counts and Expression)是一种利用单细胞RNA-SEQ数据预测细胞分化状态的计算方法。CytoTRACE利用了一个简单但强大的发育潜力决定因素——每个细胞可检测表达的基因数量,或基因计数。我们已经在跨越315个细胞表型、52个谱系、14个组织类型、9个scRNA-seq平台和5个物种的约150K单细胞转录组上验证了CytoTRACE。
CytoTRACE 运行原理和步骤 (1)基因计数:第一步是计算每个细胞中可检测表达的基因数量。这是通过对每个单细胞表达大于零的基因总数求和来完成的。
(2)基因计数特征(GCS):第二步是捕捉表达模式与基因计数相关的基因。这是通过以下步骤完成的:
输入基因表达表被重新调整为每百万转录本 (TPM) 或每百万计数 (CPM)。
将每个单个细胞的转录本总和设置为该细胞中可检测表达的基因总数。这样做是为了将基因表达矩阵转换为相对转录物计数,或细胞裂解物中 mRNA 分子的估计丰度,我们和其他人已经证明这可以改进差异表达基因的检测(Gulati 等人,2020 年;Qiu 等人等,2017)。
生成的表达式矩阵是 log 2归一化的,拟计数为 1。
为了测量每个基因与基因计数的关系,计算每个基因的标准化表达和基因计数之间的 Pearson 相关性。
与基因计数最正相关的前 200 个基因的几何平均表达是基因计数特征 (GCS)。
(3) CytoTRACE:最后一步是通过利用细胞之间的局部相似性并应用两步平滑程序来迭代改进我们对 GCS 向量的估计:
创建我们的最近邻图,我们将归一化的表达矩阵(见上文)转换为马尔可夫过程,以捕捉单元格之间的局部相似性。
使用这个马尔可夫矩阵,然后我们将非负最小二乘回归 (NNLS) 应用到 GCS。这使我们能够将 GCS 表示为马尔可夫矩阵中捕获的不同转录邻域的函数。
应用扩散过程,根据马尔可夫过程的概率结构迭代调整 GCS。注意:这不是 GCS,而是经过 NNLS 调整的 GCS。
结果值在 0 和 1 之间进行排序和缩放,代表细胞的相对分化状态的预测顺序(0,分化程度更高;1,分化程度较低)。
官网提供以下功能:
-
分析42个公开可用的带注释的scRNA-seq数据集,用CytoTRACE预先计算;
-
预测自定义scRNA-seq数据集中的分化状态;
-
预测来自不同平台和发展阶段的多个批次/数据集的分化状态;
-
用交互式3D图(包括t-SNE、力向布局和UMAP)可视化预测的分化;
-
根据已知表型总结结果;
-
识别预测的干细胞和分化相关基因。
策划新特性: 提供表现型时,箱线图带有plotCytoTRACE功能 其他外部生成的值可以使用CytoTRACE使用“otherValue”和“otherName”字段绘制 新的plotCytoGenes功能用于绘制与CytoTRACE相关的基因条形图 iCytoTRACE现在提供了快速模式,可以通过分析大型数据集来改进运行时 改进了所有函数的文档,可以在加载CytoTRACE库后通过R中的函数名访问这些文档 由于科学界的建设性反馈,我们修复了几个小错误 与最新的R v4.0.0版本兼容 使用以下链接下载CytoTRACE R包v0.3.3。
现在,您应该在本地目录(下面称为/PATH/to/directory/)中看到一个名为cytotrace_0.3.3.ar.gz的文件。要将这个包安装到R,打开R (version >= 4.0.0)并运行以下命令: