别人的电子书,你的电子书,都在bookdown 一文中推荐过这一篇教程( https://hemberg-lab.github.io/scRNA.seq.course ),从2016年一直更新到2018年,是入门单细胞分析的十分适合的文档。为了进一步促进学习,生信宝典申请并组织翻译这篇教程,将在公众号陆续推出。最后会有整合版以网页和PDF格式发布于易生信平台。

采用高通量测序技术获取单细胞水平的全转录组数据又称 scRNA-seq 已应用越来越广泛。 scRNA-seq 的优势是其同时具有单细胞水平的分辨率和基因组范围的检测能力,可以解决其他方法如 bulk RNA-seq 或单细胞 RT-qPCR 解决不了的问题。然而,分析单细胞数据需要新的方法,以前用于 bulk RNA-seq 的一些计算方法的理论假设也不再适用。

在这个课程,我们讨论 scRNA-seq 可以解决的问题,以及可用的计算和统计学方法。原版课程是剑桥大学生物信息培训中心授课所用, 但文字版教材适用于任何对 scRNA-seq 分析感兴趣的人。课程每年两次,材料在开课前更新。

计算工具的数量增加很快,我们尽力更新至最新技术。这个课程的一个主要限制是我们倾向于使用在 R 里面实现并且速度相对快的工具 ( 其他语言实现的工具也通用,关键是理解原理 )。另外,我们倾向于使用自己或朋友、同事开发的工具。(译者注:无可厚非,一是更了解,二是更容易获取帮助。我们也更倾向于使用自己的 绘图工具ImageGP 。)

视频课录制于2017年11月,那时课程章节更少一些。视频在Youtube上, https://www.youtube.com/embed/56n77bpjiKo?list=PLEyKDyF1qdOYAhwU71qlrOXYsYHtyIu8n。

GitHub

https://github.com/hemberg-lab/scRNA.seq.course

Docker 镜像 (RStudio)

课程可以通过安装了所有依赖包的 RStudio 的Docker镜像重现。

确保你的电脑已安装了 Docker ,如果没有,请参照 Docker基础 。运行下面命令启动Docker镜像:

docker run -d -p 8787:8787 quay.io/hemberg-group/scrna-seq-course-rstudio

这条命令会下载docker镜像 (看网速快慢,需要一些时间)。下载完成后,会启动Rstudio服务器版 (里面包含了依赖的程序包和数据)。

接下来就可以在基因组浏览器访问localhost:8787,使用用户名和密码rstudio:rstudio登录网页版Rstudio (R语言学习 - 入门环境Rstudio)。

更多关于运行RStudio docker镜像的选项见https://hub.docker.com/r/rocker/rstudio-stable/.

译者注:如果您参加过我们的易生信课程,这些操作都应该比较熟悉了。需要注意的是:1. 确认8787端口有无被占用,尤其是自己在服务器运行过Rstudio server时。2. 如果服务器有外网IP,可以在任何电脑的浏览器输入IP:8787访问。

译者注:如果不习惯Docker,或没有管理员权限,自己在Windows下安装依赖包也不费事。

如果不使用Docker镜像,需要克隆或下载course GitHub repository并且在下载后的文件夹中启动R session。并且需要安装课程的docker文件: Dockerfile1 和 Dockerfile2中列出的所有包.

所有课程材料遵循 GPL-3协议. 任何人都可以阅读这份材料来学习scRNA-seq数据分析. 如果应用于教学,除了提供合适的引用外,还请联系我们 (英文版:Vladimir Kiselev (vladimir.yu.kiselev@gmail.com),中文版 易生信 train@ehbio.com。)。

课程适用于有Linux/UnixR基础的朋友 (蓝字可点击)。

另外,我们也假设您对常规转录组的比对和分析,以及常用的计算工具比较熟悉 (39个转录组分析工具,120种组合评估(转录组分析工具哪家强-导读版))。

否则,我们推荐先参加Introduction to RNA-seq and ChIP-seq data analysis 或 Analysis of high-throughput sequencing data with Bioconductor,然后再参加这个课程。

译者注:生物信息程序基础和常规转录组分析的中文版视频课程见:易生信原创课程 (如果是微信公众号,后台回复 培训获取)。

如果您有任何 评论问题 或 建议 请跟我们联系。(英文版:Vladimir Kiselev (vladimir.yu.kiselev@gmail.com),中文版 易生信 train@ehbio.com。)。

单细胞RNA-seq简介

混合RNA-seq

  • 2000年末的重大技术突破,取代微阵列表达芯片被广泛使用

  • 通过混合大量细胞获取足够RNA用于建库测序,来定量每个基因的平均表达水平

  • 用于比较转录组,例如比较不同物种的同一组织样本

  • 量化整体表达特征,如疾病研究中的表达模式

  • 研究异质系统方面还有力所不及之处,例如对早期发育的研究,复杂组织(大脑)的研究

  • 在基因表达随机性研究方面心有余而力不足

scRNA-seq

  • 是一项由汤富酬等人在2009年首次发表的技术。文章发表于Nature Method,测序了7个单细胞,两个卵裂球,两个野生型卵子,两个Dicer敲除的卵 子,一个Ago2敲除的卵子。

  • 这项技术在2013年被Nature评为年度技术,更简便的操作流程和较低的测序成本促成单细胞技术的广泛流行。2018年底,单细胞技术应用于胚胎发育追踪评为Science年度突破。

  • 检测每个基因在大量细胞中的表达水平分布

  • 可以研究细胞类型特异性转录调控的新型生物问题,例如细胞类型鉴定,细胞应答的异质性,细胞表达的随机性,细胞间基因调控网络的推断等

  • 研究中细胞数目范围从100个变到10^6个且每年递增。

  • 目前有许多不同的单细胞Protocol,例如 SMART-seq2 , CELL-seq  和 Drop-seq 。

  • 还有商业平台,包括 Fluidigm C1, Wafergen ICELL8和the 10X Genomics Chromium。

  • Bulk RNA-seq技术中一些计算分析方法可应用于单细胞分析。

  • 多数情况下单细胞计算分析需要调整现有方法或者开发新方法

总体而言,scRNA-seq的实验方案和bulk RNA-seq的相似。我们将在下一节一起讨论一些最通用的方法。

本课程内容是scRNA-seq实验中得到的数据进行计算分析。总体流程如下图所示,前面三步(黄色)对于任何高通量测序数据是通用的,紧随其后的四步(橙色)是要将传统RNA-Seq分析中已有的方法和新开发的方法结合起来解决scRNA-seq的技术差异问题,最后的部分(蓝色)是使用专门为scRNA-seq开发的方法来进行生物分析解读。

scRNA-seq分析的综述有几篇,包括 Computational and Analytical Challenges in Single-Cell Transcriptomics.” Nat Rev Genet 16 (3) 。

目前还有其他平台可以执行上述流程图中的一步或多步操作:

  • Falco:是一个单细胞RNA-seq的云处理平台,更像是一个流程部署和管理工具,一年多未更新了,一般也用不上。能部署的应该都有自己 的一套部署工具,初学者不需要学这么复杂的。有精力,可以学习下其部署理念应用于自己的流程。

  • SCONE(Single-Cell Overview of Normalized Expression):单细胞RNA-seq质量控制和标准化的R包 (一年多没更新了, Yosef研究 组2018年在Nature method发表一个单细胞分型的深度学习平台,scVI,效果不错,值得尝试)

  • Seurat :单细胞质控,分析和数据探索而设计的R包,可以完成获得定量数据后的几乎所有分析。不少文章的几个主图都是来自这个软件包 。这个软件包可以作为学习的入门,官网的教程示例写的很详细。
  • ASAP(Automated Single-cell Analysis Pipeline) :是一款单细胞分析的交互式网络平台。从基因表达矩阵开始到后期分析。功能相对比较全,定制化弱一些。学完这份教程,里面的功能都可以自己实现。

Bulk RNA-seq和scRNA-seq的主要差别是每个测序文库代表一个单细胞还是一群细胞。比较不同细胞(不同测序文库)的结果需要格外注意。文库之间差异的主要来源是:

  • 扩增效率和扩增偏好性(部分文库可扩增多达100万倍)

  • 基因 ‘dropouts’: 基因在一个细胞中呈现中等表达水平,但在另一个细胞中未检测到表达,这可能来源于scRNA-seq中RNA总量低导致的扩增建库丢失或RNA表达的随机性。

取自于单独一个细胞的低转录本总量是这两个文库差异的一个主要原因。提高转录本捕获效率和降低扩增偏好可以降低差异,是目前活跃的研究方向。从后续课程学习中也可以看 到,合适的标准化和校正方法也可以抵消一部分文库构建引入的噪音。

这是独立版本的脑,CE LL重新端口BRO wser,(目前可用于MacOS和Windows),它允许用户单细胞转录组数据的交互可视化各个部分,而无需专业知识生物信息学。 Cerebro的核心是cerebroApp Shiny应用程序,该应用程序使用Electron装入独立的应用程序中。 因此,它也可以在仅需要R和一组依赖项的Web服务器和Linux机器上运行。 需要使用专门为此目的而构建的cerebroApp R软件包来准备输入数据。 它提供了在单个步骤中将Seurat对象(同时支持v2和v3)导出为正 安装RStudio,总共分为三步: 一、安装R安装包 https://blog.csdn.net/qq_34848334/article/details/119707652?spm=1001.2014.3001.5501 二、安装RStudio R软件安装起来非常方便快捷,我们选择直接从官网下载官网链接:https://www.r-project.org/ 下一步完成! RStudio是R的一款编辑器,功能强大使用方便,但是必须配合R软件的下载使用。 官网链接:https://www.rstudio.com/products/rstudio/download/ 第三方包问题:R自带了一些包但是后续有可能会用到其他包,其他第三方包可以 R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。 R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用... 目录一、【R语言入门】——安装R和Rstuido软件1、R安装包1.1、直接下载博主我的安装包资源(亲测安全有效)1.2、官网下载R安装包2、安装R3.R的32位与64位的区别!提问:答:推荐:4、下载RStudio安装包4.1、直接下载博主我的安装包资源(亲测安全有效)4.2、官网下载5、安装RStudio6、R语言环境安装二、【R语言入门】——R语言绘图2.1.R语言绘制频率直方图1.基础做图hist函数1.1 多图展示2.ggplot2绘制2.1 修改柱子之间的距离2.2 添加拟合曲线2.3 修改线条 rstudio在线 即使您上个月参加了RStudio的会前两天培训,您也只能参加一个讲习班—而且有超过六个。 但是,现在,包括幻灯片和R代码在内的许多材料都可以在线免费获得。 这是获取它们的方法。 大多数代码和幻灯片已发布在GitHub上 。 如果您的系统上未设置git版本控制,则可以下载任何存储库的压缩文件。 但是git和GitHub确实使它更容易和更优雅。 如果您想在RStudio中了解... Linux centos7 yum安装Rstudio: wget https://download2.rstudio.org/rstudio-server-rhel-1.1.456-x86_64.rpm yum install rstudio-server-rhel-1.1.456-x86_64.... 原标题:R语言初级教程: R编程环境的搭建作者介绍:杨光辉,R语言中文社区专栏作者,中科院近代物理研究所,科研工作者一枚。目前的研究方向是知识图谱。知乎专栏:R语言初级教程,个人公众号:辉小宝同学。R是目前最流行的高级编程语言之一,被广泛用于统计分析和数据可视化。R是开源的,有非常活跃的社区来支撑。想要了解更多有关R信息,可访问R的主页:https://link.zhihu.com/?target...