pySCENIC单细胞转录因子分析更新(2)：python版分析及可视化_python 转录组分析

相关文章推荐

聪明的手电筒 · 重定向能携带参数吗 - CSDN文库· 7 月前 ·

小眼睛的苹果 · java.lang.ClassNotFoun ...· 9 月前 ·

精明的花卷 · Java ...· 1 年前 ·

留胡子的茶壶 · Unity 如何制作UI动画①？-百度经验· 1 年前 ·

****pySCENIC全部往期精彩系列：
1、 PySCENIC（一）：python版单细胞转录组转录因子分析
 2、 PySCENIC（二）：pyscenic单细胞转录组转录因子分析
 3、 PySCENIC（三）：pyscenic单细胞转录因子分析可视化
 4、 PySCENIC（四）：pyscenic结果之差异转录因子分析及其他可视化 5、 pySCENIC单细胞转录因子分析更新：数据库、软件更新
最近公众号小伙伴好像扎堆做单细胞转录因子富集分析，这里还是建议使用服务器，因为自己电脑可能跑起来比较费劲。我们也在上一篇内容里面对分析进行了更新，我们提供的方法都在liunux终端的conda环境中运行。可以直接运行，也可以在docker镜像中运行。之前我们提供过在pyscenic运行结束后得到loom文件进行分析可视化。这里我们新补充内容，就是python版的可视化。首先解决一个问题，其实这个问题在RNA速率分析的时候我们已经提到了（单细胞RNA速率分析(3):Python版RNA速率分析分析及可视化）。我们是在R语言里面提取的seurat单细胞的矩阵去python中分析，所以最后可视化的时候需要将R里面的文件转化为python可读可操作的对象。我们封装了两个函数，第一个是R里面数据提取seurat_to_adata.R，第二个是python中数据构建函数seurat_to_adata.py。接下来就进行可视化分析：

1、TF ranks

image.png

2、TF热图

image.png

3、转录因子活性聚类图

image.png

全基因组的表观基因组数据集使我们能够验证基序的生物学功能并更全面地了解调控机制。一个不同的基序如何确定转录因子（TF）是否可以在特定位置结合DNA是一个关键的研究问题。在这个项目中，我们应用自然语言处理（NLP）中使用的计算技术来预测给定基序实例的转录因子结合区（TFBR）。现有的大多数使用深度神经网络的主题预测方法都将具有一键编码的基本序列用作输入特征，以实现TFBR的识别，这有助于实现低分辨率和间接绑定机制。但是，如何弄清楚基序对结合位点的集体影响是很复杂的。在我们的管道中，我们使用Word2Vec算法，并以主题名称作为输入，以基于ENCODE数据集，利用卷积神经网络（CNN）预测TFBR，以实现二进制分类。在这方面，我们将不同类型的主题视为单独的“单词”，并将它们对应的TFBR视为“句子”的含义。一个“句子”本身仅仅是这些主题的组合，所有“句子”都是整个“段落”的组成。对于每个结合位点，我们在不同细胞类型内进行二进制分类，以显示模型在不同结合位点和细胞类型下的性能。每个“单词”在高维上都有一个对应的向量，并且每个向量之间的距离都可以计算出来，因此我们可以从模型中原标题：一个生信素人的上道经验分享- 转录组测序(差异分析篇) 转录组测序技术(RNA-seq)作为目前二代测序领域最普遍的技术手段，自从转录组测序问世以来，已经开发了数百种分析工具。根据转录组分析内容可大致将其分析流程分为比对，转录本组装，基因注释和差异表达分析。目前，分析的每一步都有很多软件，其软件的性能和分析效率不尽相同。上篇文章小编为各位小伙伴介绍了转录组分析的第三步——基因定量【一个生信素... 预测转录因子（TFs）的功能分析该项目的目标是开发一种工作流程，以识别预测的TF的潜在靶基因。由于前期需求请安装畅达： jupyter笔记本： pybedtools： gprofiler：：//pypi.org/project/gprofiler-official/ 我们鼓励您使用基于UNIX的系统。如果您运行Windows，请确保更改目录路径。我们建议您单独运行代码单元，以避免长时间运行图。您可能遇到的问题：如果“ gprofiler”不起作用，请确保您也将其安装在控制台中（bash）如果那不能解决您的问题，请将“ Gprofiler”重命名为“ grofiler”。如果这不能解决您的问题，请安装所有带有conda的包装要开始分析，您需要3个数据文件： “ .bed”格式的注释文件在“ .txt”文件中带有转录因子的文本文件脚本-“ tf_an 可扩展的SCENIC工作流程，用于 单细胞 基因调控网络分析该存储库描述了如何对 单细胞 数据运行 pySCENIC 基因调控网络推断分析以及基本的“最佳实践”表达分析。这包括：独立的Jupyter笔记本电脑，用于交互式分析 Nextflow DSL1工作流程，它提供了一种半自动化且简化的方法来运行这些步骤 pySCENIC 安装，使用和下游分析的详细信息另请参阅《自然规约》中的相关出版物： : 。有关此协议中步骤的高级实现，请参阅，这是 pySCENIC 的Nextflow DSL2实现，具有用于表达式分析的全面且可自定义的管道。这包括其他 pySCENIC 功能（多次运行，集成的基于主题和基于轨迹的regulon修剪，织机文件生成）。 PBMC 10k数据集（10x基因组学）完整的SCENIC 分析，以及过滤，群集， 可视化 和SCope就绪的织机文件创建： | ** pySCENIC 全部往期精彩系列首先说一句，我们之前也发过R语言版本的SCENIC，但是后来我们感觉容易出错，而且费时，所以就没有再探究过。可是总是有小伙伴喜欢跑R，然后说这里错了，那里找不见，其实我们的帖子写于2022年，但是数据库已经更新了，去官网下载新的数据库，不能无脑跑代码。回到 pySCENIC ,之前我们写过整个系列4篇帖子，分析 可视化 都是很完善了。可是近期跑的时候发现在第一步有点问题，要么跑不动，要么出错，怀疑是软件和数据库没有更新的缘故，故而更新一下测试。这个帖子主要有两部分内容。关于 单细胞 转录组转录因子的分析我们之前在 单细胞 系列讲过R语言版本的，参考：跟着Cell学 单细胞 转录组分析 (十二): 转录组 因子分析 ，但是R语言分析起来速度非常慢，如果你动辄上万的 单细胞 可能要运行好几周，这显然不现实。 pySCENIC 则很好的解决了这个问题，分析速度很快。 pyscenic 的分析和 可视化 总算是结束了。其实还有 python 版本的 可视化 ，但是已经不想研究了，和R差不多，主要是对结果的解读。3、差异TF的分析，这也许是今天这个帖子的重点内容吧，可以像转录组那样，或者GSVA，寻找不同组织间差异性TF，结果更有说服力！1、rank形式的转录因子展示，有些文章中是这样，特异性TF展示更直观。更多精彩内容请至我的公众号---KS科研分享与服务。2、利用我们之前说过的网络图展示TF与靶基因！ SCENIC（ 单细胞 重组网络推断和聚类）是一种从 单细胞 RNA序列数据推断基因调控网络和细胞类型的计算方法。该方法的描述和一些使用示例可在《。当前在R（此存储库）和 Python 中有SCENIC的实现。如果您不太喜欢使用R，我们建议您检查一下SCENIC（其中包含Nextflow工作流程）和 Python / Jupyter笔记本，以轻松运行SCENIC （强烈建议您批量运行SCENIC或更大的数据集）。然后，可以在R， Python 或SCope（Web界面）中浏览任何实现的输出。有关在R运行SCENIC的更多详细信息和安装说明，请参阅以下教程：这些示例的输出位于： : 常见问题： 2021/03/26： 2020/06/26：该SCENICprotocol包括Nextflow工作流程，并 pySCENIC 笔记本现在正式发布。有关详细信息我们也可以提取数据，用热图的方式呈现，这里我是用ggheatmap做的，也可以用pheatmap、complexheatmap或ggplot2做。RSS 分析，查看细胞类型特异性转录因子，需要先加载seurat对象，提取metadata信息，并进行分析！上面我们展示的是转录因子在不同细胞的评分，按照这个道理，我们依然可以选定某种细胞，看样本间转录因子的差别！当然了，全部展示没有啥意义，还是可以提取数据， 可视化 需要的TF！更多精彩内容请至我的公众号---KS科研分享与服务。先加载需要的R包，都加载了，没毛病。我们也说过，我们号是放弃R语言版的SCENIC的分析了，因为它比较耗费计算资源和时间，所以我们的 单细胞 转录 因子分析 教程都是基于 pyscenic 的分析进行的。有些说想知道整个运行过程是怎么样的，所以我们出了这个视频教程，演示整个 pyscenic 的流程。我们的这个视频从数据准备、软件安装、步骤分析、镜像分析等等方面，展示了 pyscenic 分析的过程，最终得到分析结果。得到分析结果之后，那么后续的内容也就好办了，我们也写了很多的R语言版的分析和 可视化 ，以及 python 版本的分析 可视化 。