转录因子(transcription factors, TFs)是直接作用于转录组上,调控DNA转录的蛋白质。它通过与DNA特定区域结合,促进(activator)或阻止(repressor)DNA的转录过程。
了解转录因子对于了解细胞的功能及生命活动有重要作用。SCENIC就是一个常见的、基于单细胞转录组数据分析转录因子活性、基因调控网路的工具。SCENIC的分析主要分为三步,第一步通过基因之间的共表达,找到可能的转录因子。第二步是进行转录因子-motif的富集分析并找到对应的靶基因(调控组regulon)。第三步是对调控组的活跃程度进行评分。
第一步由GENIE3或GRNBoost实现。GENIE3用转录因子的表达量,通过训练随机森林(random forest)模型来预测各基因的表达量,从而得到转录因子在预测每个基因转录时的权重。这个权重反映了转录因子对于预测基因转录水平的相关性。相关性越高,则代表基因更有可能是该转录因子的靶基因。
随机森林是由多个决策树形成的分类器,它通过有放回的抽样训练出多个决策树,再以决策树结果中的众数为最终的结果。更详细的解释,可见:https://zhuanlan.zhihu.com/p/57965634
GENIE3的输入为基因表达矩阵,可以是UMI、TPM,或者FPKM/RPKM。而GENIE3的输出为基因、可能参与该基因的转录因子,以及它们的该转录因子的重要性(importance measure, IM),即其在预测基因转录水平时的权重。只有当权重高于0.001时,该转录因子才被认为是可能参与该基因调控的转录因子。
因为随机森林需要进行多次抽样,训练出多个决策树,当数据量很大时,这一步非常花时间,因此针对较大的数据,第一步可以用GRNBoost,它使用了梯度提升算法,在训练新的决策树时,会提高上一个决策树出错的样本比例,以针对模型预测欠缺的地方进行优化。
第二步由RcisTarget实现。它的主要作用在于通过一个基因列表,找到富集的转录因子及转录因子结合模序(motif),即可能的转录因子结合位点的模板序列。
它通过两步进行。首先,它找到基因列表里基因的转录起始位点(transcript ion start site, TSS)。并找出转录起始位点周围高频出现的DNA motif。它会搜寻一个包含了跨物种基因组范围内各motif信息的数据库,筛选出和目标转录因子相关联的、标准化富集指数(normalised enrichment score, NES)高于3.0的motif。
接着,针对每一组motif和基因列表,RcisTarget会预测可能的目标基因。目标基因为基因列表中预测结果排序靠前的基因。所有motif共有的目标基因加上与之对应的转录因子,即为调控组regulon。
第三步由AUCell实现,它能找到每个细胞中一组基因的活跃程度。在这,SCENIC通过AUCell计算regulon的活跃程度。AUCell计算曲线下的面积(area under recovery curve, AUC),依据每个基因的表达水平,来计算出regular的活跃程度。各基因根据基因表达水平在x轴排序来绘制曲线。因此AUC反映了在每个细胞中给定的一组基因相对于其它基因的表达水平。
通过AUCell,我们能得到一个矩阵,包含每组regulon在每个细胞内相对于其它基因的表达水平,即它们的活跃程度。通过这一个矩阵,我们可以对细胞进行聚类,也可以看不同细胞类型中都有什么regulon是活跃的。
以上是SCENIC的算法概述,下一篇内容我们来聊聊如何用SCENIC进行转录因子分析,并把得到的结果通过图片展示出来。
祝大家吃好喝好睡好,科研快乐~
欢迎关注微信公众号 “小L的读博日常”,第一时间获得更多和生物信息学相关的小tips。
[1] https://zhuanlan.zhihu.com/p/434003188
图片来源:Twitter @PHDcomics
SCENIC
(
单细胞
重组网络推断和聚类)是一种从
单细胞
RNA序列数据推断基因调控网络和细胞类型的计算方法。
该方法的描述和一些使用示例可在《。
当前在R(此存储库)和Python中有
SCENIC
的实现。 如果您不太喜欢使用R,我们建议您检查一下
SCENIC
(其中包含Nextflow工作流程)和Python / Jupyter笔记本,以轻松运行
SCENIC
(强烈建议您批量运行
SCENIC
或更大的数据集)。 然后,可以在R,Python或SCope(Web界面)中浏览任何实现的输出。
有关在R运行
SCENIC
的更多详细信息和安装说明,请参阅以下教程:
这些示例的输出位于: :
常见问题:
2021/03/26:
2020/06/26:
该
SCENIC
protocol包括Nextflow工作流程,并py
SCENIC
笔记本现在正式发布。 有关详细信息
可扩展的
SCENIC
工作流程,用于
单细胞
基因调控网络分析
该存储库描述了如何对
单细胞
数据运行py
SCENIC
基因调控网络推断分析以及基本的“最佳实践”表达分析。 这包括:
独立的Jupyter笔记本电脑,用于交互式分析
Nextflow DSL1工作流程,它提供了一种半自动化且简化的方法来运行这些步骤
py
SCENIC
安装,使用和下游分析的详细信息
另请参阅《自然规约》中的相关出版物: : 。
有关此协议中步骤的高级实现,请参阅 ,这是py
SCENIC
的Nextflow DSL2实现,具有用于表达式分析的全面且可自定义的管道。 这包括其他py
SCENIC
功能(多次运行,集成的基于主题和基于轨迹的regulon修剪,织机文件生成)。
PBMC 10k数据集(10x基因组学)
完整的
SCENIC
分析,以及过滤,群集,可视化和SCope就绪的织机文件创建: |
转录
因子分析
可以了解细胞异质性背后的基因调控网络的异质性。
转录
因子分析
也是
单细胞
转录
组常见的分析内容,R语言分析一般采用的是
SCENIC
包,具体原理可参考两篇文章。1、《
SCENIC
: single-cell regulatory networkinference and clustering》。2、《Ascalable
SCENIC
workflow for single-cell gene regulatory network analysis》。但是说在前头,
SCENIC
的计算量超级大,非常耗费内存
点击关注,桓峰基因桓峰基因公众号推出
单细胞
系列教程,有需要生信分析的老师可以联系我们!
单细胞
系列分析教程整理如下:Topic 6. 克隆进化之 CanopyTopic 7. 克隆进化之 CardelinoTopic 8. 克隆进化之 RobustCloneSCS【1】今天开启
单细胞
之旅,述说
单细胞
测序的前世今生SCS【2】
单细胞
转录
组 之 cellrangerSCS【3】
单细胞
转录
组数据 G...
在2019/08/07的Nature刊中,中科院景乃禾课题组发表了文章——Molecular architecture of lineage allocation and tissue organization in early mouse embryo ,我在这篇文章中发现了一个被汤神组 (就是Hemberg-lab
单细胞
转录
组数据分析(二)- 实验平台中开辟了
单细胞
转录
组领域的人)反...
Bouncing Ball Example
Fuchsia提供了示例代码展示客户端应用进程如何使用
Scenic
提供的服务来绘制GUI和显示GUI 到屏幕上,本文试图通过时序图来说明
Scenic
图形系统与C...
Scenic
场景描述语言的编译器和场景生成器。 请参阅以获取安装说明,以及有关
Scenic
语言、其实现及其与各种模拟器的接口的教程和其他信息。
有关该语言及其一些应用的描述,请参阅,它扩展了我们的(注意:自以来,
Scenic
的语法略有变化,并且添加了许多功能,例如支持动态场景;这些在预印本中进行了描述)。
Scenic
由 Daniel J. Fremont、Edward Kim、Tommaso Dreossi、Shromona Ghosh、Xianyu Yu、Alberto L. Sangiovanni-Vincentelli 和 Sanjit A. Seshia 设计和实施。
如果您在使用
Scenic
时遇到任何问题,请向提交问题或通过联系 Daniel。
存储库的组织方式如下:
src/
scenic
目录包含正确的包;
examples目录中有很多 Sce
单细胞
测序技术的应用与数据分析、
单细胞
转录
组为主题,精心设计了具有前沿性、实用性和针对性强的理论课程和上机课程。培训邀请的主讲人均是有理论和实际研究
经验
的人员。学员通过与专家直接交流,能够
分享
到这些顶尖学术机构的研究
经验
和实验设计思路。学员通过集中专题学习后能够扩展思路,在研究技术方面领悟更多。
2019年8月16日——8月19日 山东青岛
单细胞
测序技术与应用 1.
单细胞
组学技术发展历程...
SCAN
算法
也就是很形象的电梯调度
算法
。先按照一个方向(比如从外向内扫描),扫描的过程中依次访问要求服务的序列。当扫描到最里层的一个服务序列时反向扫描,这里要注意,假设最里层为0号磁道,最里面的一个要求服务的序列是5号,访问完5号之后,就反向了,不需要再往里扫。结合电梯过程更好理解,在电梯往下接人的时候,明知道最下面一层是没有人的,它是不会再往下走的。
Sample
假设磁头当前位于第99道,正...
基因表达调控包括
转录
水平、
转录
后水平和翻译水平。
转录
调控是指通过改变
转录
速率从而改变基因表达的水平,其对遗传信息的传递的准确性和多样性具有重要的作用。真核生物的
转录
调控包括多种形式,例如DNA甲基化、组蛋白修饰、染色质重塑、
转录
因子
等。
真核生物基因
转录
在细胞核内进行,而翻译则在细胞质中进行,因此
转录
后调控是基因表达调控的另一个重要方面,主要...
在别人的电子书,你的电子书,都在bookdown一文中推荐过这一篇教程(https://hemberg-lab.github.io/
scRNA
.
seq
.course),从2016年一直更新到2018年,是入门
单细胞
分析的十分适合的文档。为了进一步促进学习,生信宝典申请并组织翻译这篇教程,将在公众号陆续推出。最后会有整合版以网页和PDF格式发布于易生信平台。
采用高通量测序技术获取
单细胞
水...