Task.1 安装Seurat,准备处理single cell data

安装Seurat时,只能安装3.2.3以下的版本,太高就不兼容!

install.packages('remotes') %安装过可以省略
remotes:: install_version("Seurat", version = "3.2.3")
# 安装不上可以更新R版本或者安装附属包

Task.2 加载Seurat包并导入数据

library(Seurat)
# 这里可以设置你的路径,三个文件(mtx数据、行名和列名)都需要加载
# 所使用的数据暂时不公开了,GEO数据库有很多
Day0_RAW <- ReadMtx( mtx = "matrix.mtx", features = "features.tsv",cells = "barcodes.tsv")

Task.3 创建Seurat格式项目

Seurat_Day0 <- CreateSeuratObject(counts = Day0_RAW,min.cells = 3,min.genes = 200)
# 初步过滤:>=3个细胞中表达的基因(min.cells = 3),>=200个基因的细胞(min.genes = 200)。可任意设置。

创建的项目:33539 features across 22609 samples within 1 assay
Task.4 质控

Seurat_Day0[["percent.mt"]] <- PercentageFeatureSet(Seurat_Day0, pattern = "^MT-")
# 这个命令是计算基因含量,这里MT是线粒体的意思
VlnPlot(Seurat_Day0, features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), ncol = 3)
# 可视化一下

质控
根据第三个图片,线粒体基因含量占比25%以下的细胞才保留
线粒体是生物大分子,线粒体较多的细胞说明有细胞有可能已经失活,并且噪音也就变的非常多(大佬LR讲解的)
接下来可视化RNA-基因含量,RNA-feature

plot1 <- FeatureScatter(Seurat_Day0, feature1 = "nCount_RNA", feature2 = "percent.mt")
plot2 <- FeatureScatter(Seurat_Day0, feature1 = "nCount_RNA", feature2 = "nFeature_RNA")
plot1 + plot2
# 这个可视化感觉要更好看一些

质控2
上面两个可视化是为了根据内容确定筛选的细胞数目和基因数目。下面代码才是最重要的质控代码

#过滤具有超过 8000 或少于 200 个独特特征的细胞,过滤>25%的线粒体(线粒体不清楚为何过滤)
Seurat_Day0_fit <- subset(Seurat_Day0, subset = nFeature_RNA > 200 & nFeature_RNA < 8000 & percent.mt < 25)

质控后的项目:33539 features across 22433 samples within 1 assay (删除了部分低表达的细胞)

Task.5 标准化
对每个细胞的表达量进行归一化(常用“LogNormalize”),将其乘以比例因子(默认为 10,000),并对结果进行对数转换(这个是必须的)

Seurat_Day0_fit_norm <- NormalizeData(Seurat_Day0_fit , normalization.method = "LogNormalize", scale.factor = 10000)
#这些参数都是默认值,可以不写

至此,数据预处理结束,接下来是降维、聚类等分析。

在生物学研究中,单细胞RNA测序(single-cell RNA sequencing,scRNA-seq)已经成为一种广泛应用的技术,它能够揭示不同细胞类型之间的转录组差异。本文将介绍如何使用R语言单细胞RNA-seq数据进行分析,特别是细胞单一基因的表达分析。通过预处理和归一化数据,我们可以提取感兴趣的基因,并研究其在不同细胞群中的表达模式。这些分析有助于我们更好地理解单细胞之间的转录组差异及其功能。首先,我们需要加载单细胞RNA-seq数据,并进行必要的预处理步骤,例如质量控制、过滤和归一化。 Seurat是用于单细胞基因组学的R工具包,由NYGC的Satija实验室开发和维护。 说明,文档和教程可在以下位置找到: Seurat也托管在GitHub上,您可以在以下位置查看和克隆存储库 通过使用devtools软件包直接从GitHub上安装,Seurat已成功安装在Mac OS X,Linux和Windows上 改进和新功能将定期添加,如有任何问题或您是否愿意贡献,请发布在上 有关版本历史记录/更改日志,请参阅。 CC = home/txb/miniconda3/envs/r-4.2/lib/R/x86_64-conda-linux-gnu-cc前面加个位置。在/home/txb/miniconda3/envs/r-4.2/lib/R/etc/Makeconf文件中。报错2:x86_64-conda-linux-gnu-cc command not found。r- 开头,例如安装stingi包 conda install r-stringi。5.安装R包以 r- 开头,例如安装stingi包。 执行UMAP可视化需要运行PCA降维,PCA降维之前需要缩放数据到一定规模! 接上一篇结果:预处理后的数据 R语言分析单细胞数据Day1——下载Seurat包并进行预处理(一) Task.1 缩放数据 all.genes <- rownames(Seurat_Day0_fit_norm) #Seurat_Day0_fit_norm这个是上一节的名字,换成自己的项目名即可 Seurat_Day0_fit_norm <- ScaleData(Seurat_Day0_fit_norm, featur. 此文章是通过学习瑞典国家生物信息学基础设施(NBIS) 所开放的单细胞分析教程加上网上所查找的资料,自身的理解所形成的,可能会有不足之处。该部分是对下机处理完成后的数据进行Seurat分析的质控。参考来源:https://nbisweden.github.io/workshop-scRNAseq/labs/compiled/seurat/seurat_01_qc.html感兴趣的话可以阅读原文。 今天安装Seurat时遇到了一个问题: 去网上搜了一下,很多人都遇到了这个问题,但是产生的原因也经常不相同,所以有些解决方法不一定有用。我遇到的问题用了一些网上的解决方案还是不行,偶然发现可能是我的电脑的问题,这里记录一下我的问题以及解决方法。 因为我之前为了不想重复安装R包,直接把旧电脑上的R包迁移到新电脑上了。而旧电脑上的R版本是4.1.0 , 但是新电脑我装了最新的4.2.2 。所以我猜想是我迁移的R包是基于R4.1.0 , 这样有 NGS系列文章包括NGS基础、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述))、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-ste... 10X单细胞转录组理论上有3个文件才能被读入R进行seurat分析,分别是barcodes.tsv 、 genes.tsv和matrix.mtx,文件barcodes.tsv 和 genes.tsv,就是表达矩阵的行名和列名。