转录因子(transcription factors, TFs)是直接作用于转录组上,调控DNA转录的蛋白质。它通过与DNA特定区域结合,促进(activator)或阻止(repressor)DNA的转录过程。

了解转录因子对于了解细胞的功能及生命活动有重要作用。SCENIC就是一个常见的、基于单细胞转录组数据分析转录因子活性、基因调控网路的工具。SCENIC的分析主要分为三步,第一步通过基因之间的共表达,找到可能的转录因子。第二步是进行转录因子-motif的富集分析并找到对应的靶基因(调控组regulon)。第三步是对调控组的活跃程度进行评分。

第一步由GENIE3或GRNBoost实现。GENIE3用转录因子的表达量,通过训练随机森林(random forest)模型来预测各基因的表达量,从而得到转录因子在预测每个基因转录时的权重。这个权重反映了转录因子对于预测基因转录水平的相关性。相关性越高,则代表基因更有可能是该转录因子的靶基因。

随机森林是由多个决策树形成的分类器,它通过有放回的抽样训练出多个决策树,再以决策树结果中的众数为最终的结果。更详细的解释,可见:https://zhuanlan.zhihu.com/p/57965634

GENIE3的输入为基因表达矩阵,可以是UMI、TPM,或者FPKM/RPKM。而GENIE3的输出为基因、可能参与该基因的转录因子,以及它们的该转录因子的重要性(importance measure, IM),即其在预测基因转录水平时的权重。只有当权重高于0.001时,该转录因子才被认为是可能参与该基因调控的转录因子。

因为随机森林需要进行多次抽样,训练出多个决策树,当数据量很大时,这一步非常花时间,因此针对较大的数据,第一步可以用GRNBoost,它使用了梯度提升算法,在训练新的决策树时,会提高上一个决策树出错的样本比例,以针对模型预测欠缺的地方进行优化。

第二步由RcisTarget实现。它的主要作用在于通过一个基因列表,找到富集的转录因子及转录因子结合模序(motif),即可能的转录因子结合位点的模板序列。

它通过两步进行。首先,它找到基因列表里基因的转录起始位点(transcript ion start site, TSS)。并找出转录起始位点周围高频出现的DNA motif。它会搜寻一个包含了跨物种基因组范围内各motif信息的数据库,筛选出和目标转录因子相关联的、标准化富集指数(normalised enrichment score, NES)高于3.0的motif。

接着,针对每一组motif和基因列表,RcisTarget会预测可能的目标基因。目标基因为基因列表中预测结果排序靠前的基因。所有motif共有的目标基因加上与之对应的转录因子,即为调控组regulon。

第三步由AUCell实现,它能找到每个细胞中一组基因的活跃程度。在这,SCENIC通过AUCell计算regulon的活跃程度。AUCell计算曲线下的面积(area under recovery curve, AUC),依据每个基因的表达水平,来计算出regular的活跃程度。各基因根据基因表达水平在x轴排序来绘制曲线。因此AUC反映了在每个细胞中给定的一组基因相对于其它基因的表达水平。

通过AUCell,我们能得到一个矩阵,包含每组regulon在每个细胞内相对于其它基因的表达水平,即它们的活跃程度。通过这一个矩阵,我们可以对细胞进行聚类,也可以看不同细胞类型中都有什么regulon是活跃的。

以上是SCENIC的算法概述,下一篇内容我们来聊聊如何用SCENIC进行转录因子分析,并把得到的结果通过图片展示出来。

祝大家吃好喝好睡好,科研快乐~

欢迎关注微信公众号 “小L的读博日常”,第一时间获得更多和生物信息学相关的小tips。

[1] https://zhuanlan.zhihu.com/p/434003188

图片来源:Twitter @PHDcomics

SCENIC 单细胞 重组网络推断和聚类)是一种从 单细胞 RNA序列数据推断基因调控网络和细胞类型的计算方法。 该方法的描述和一些使用示例可在《。 当前在R(此存储库)和Python中有 SCENIC 的实现。 如果您不太喜欢使用R,我们建议您检查一下 SCENIC (其中包含Nextflow工作流程)和Python / Jupyter笔记本,以轻松运行 SCENIC (强烈建议您批量运行 SCENIC 或更大的数据集)。 然后,可以在R,Python或SCope(Web界面)中浏览任何实现的输出。 有关在R运行 SCENIC 的更多详细信息和安装说明,请参阅以下教程: 这些示例的输出位于: : 常见问题: 2021/03/26: 2020/06/26: 该 SCENIC protocol包括Nextflow工作流程,并py SCENIC 笔记本现在正式发布。 有关详细信息 可扩展的 SCENIC 工作流程,用于 单细胞 基因调控网络分析 该存储库描述了如何对 单细胞 数据运行py SCENIC 基因调控网络推断分析以及基本的“最佳实践”表达分析。 这包括: 独立的Jupyter笔记本电脑,用于交互式分析 Nextflow DSL1工作流程,它提供了一种半自动化且简化的方法来运行这些步骤 py SCENIC 安装,使用和下游分析的详细信息 另请参阅《自然规约》中的相关出版物: : 。 有关此协议中步骤的高级实现,请参阅 ,这是py SCENIC 的Nextflow DSL2实现,具有用于表达式分析的全面且可自定义的管道。 这包括其他py SCENIC 功能(多次运行,集成的基于主题和基于轨迹的regulon修剪,织机文件生成)。 PBMC 10k数据集(10x基因组学) 完整的 SCENIC 分析,以及过滤,群集,可视化和SCope就绪的织机文件创建: | 转录 因子分析 可以了解细胞异质性背后的基因调控网络的异质性。 转录 因子分析 也是 单细胞 转录 组常见的分析内容,R语言分析一般采用的是 SCENIC 包,具体原理可参考两篇文章。1、《 SCENIC : single-cell regulatory networkinference and clustering》。2、《Ascalable SCENIC workflow for single-cell gene regulatory network analysis》。但是说在前头, SCENIC 的计算量超级大,非常耗费内存 点击关注,桓峰基因桓峰基因公众号推出 单细胞 系列教程,有需要生信分析的老师可以联系我们! 单细胞 系列分析教程整理如下:Topic 6. 克隆进化之 CanopyTopic 7. 克隆进化之 CardelinoTopic 8. 克隆进化之 RobustCloneSCS【1】今天开启 单细胞 之旅,述说 单细胞 测序的前世今生SCS【2】 单细胞 转录 组 之 cellrangerSCS【3】 单细胞 转录 组数据 G... 在2019/08/07的Nature刊中,中科院景乃禾课题组发表了文章——Molecular architecture of lineage allocation and tissue organization in early mouse embryo ,我在这篇文章中发现了一个被汤神组 (就是Hemberg-lab 单细胞 转录 组数据分析(二)- 实验平台中开辟了 单细胞 转录 组领域的人)反... Bouncing Ball Example Fuchsia提供了示例代码展示客户端应用进程如何使用 Scenic 提供的服务来绘制GUI和显示GUI 到屏幕上,本文试图通过时序图来说明 Scenic 图形系统与C... Scenic 场景描述语言的编译器和场景生成器。 请参阅以获取安装说明,以及有关 Scenic 语言、其实现及其与各种模拟器的接口的教程和其他信息。 有关该语言及其一些应用的描述,请参阅,它扩展了我们的(注意:自以来, Scenic 的语法略有变化,并且添加了许多功能,例如支持动态场景;这些在预印本中进行了描述)。 Scenic 由 Daniel J. Fremont、Edward Kim、Tommaso Dreossi、Shromona Ghosh、Xianyu Yu、Alberto L. Sangiovanni-Vincentelli 和 Sanjit A. Seshia 设计和实施。 如果您在使用 Scenic 时遇到任何问题,请向提交问题或通过联系 Daniel。 存储库的组织方式如下: src/ scenic 目录包含正确的包; examples目录中有很多 Sce 单细胞 测序技术的应用与数据分析、 单细胞 转录 组为主题,精心设计了具有前沿性、实用性和针对性强的理论课程和上机课程。培训邀请的主讲人均是有理论和实际研究 经验 的人员。学员通过与专家直接交流,能够 分享 到这些顶尖学术机构的研究 经验 和实验设计思路。学员通过集中专题学习后能够扩展思路,在研究技术方面领悟更多。 2019年8月16日——8月19日 山东青岛 单细胞 测序技术与应用 1. 单细胞 组学技术发展历程... SCAN 算法 也就是很形象的电梯调度 算法 。先按照一个方向(比如从外向内扫描),扫描的过程中依次访问要求服务的序列。当扫描到最里层的一个服务序列时反向扫描,这里要注意,假设最里层为0号磁道,最里面的一个要求服务的序列是5号,访问完5号之后,就反向了,不需要再往里扫。结合电梯过程更好理解,在电梯往下接人的时候,明知道最下面一层是没有人的,它是不会再往下走的。 Sample 假设磁头当前位于第99道,正... 基因表达调控包括 转录 水平、 转录 后水平和翻译水平。 转录 调控是指通过改变 转录 速率从而改变基因表达的水平,其对遗传信息的传递的准确性和多样性具有重要的作用。真核生物的 转录 调控包括多种形式,例如DNA甲基化、组蛋白修饰、染色质重塑、 转录 因子 等。 真核生物基因 转录 在细胞核内进行,而翻译则在细胞质中进行,因此 转录 后调控是基因表达调控的另一个重要方面,主要... 在别人的电子书,你的电子书,都在bookdown一文中推荐过这一篇教程(https://hemberg-lab.github.io/ scRNA . seq .course),从2016年一直更新到2018年,是入门 单细胞 分析的十分适合的文档。为了进一步促进学习,生信宝典申请并组织翻译这篇教程,将在公众号陆续推出。最后会有整合版以网页和PDF格式发布于易生信平台。 采用高通量测序技术获取 单细胞 水...