相关文章推荐
另类的毛衣  ·  横评:五款免费开源的语音识别工具 | 雷峰网·  3 月前    · 
满身肌肉的包子  ·  js中使用正则表达式(五)特殊字符、匹配模式 ...·  1 年前    · 
任性的山羊  ·  我使用playsound()函数时遇到错误·  1 年前    · 
怕考试的仙人球  ·  Processing ...·  1 年前    · 
沉着的跑步鞋  ·  ORA-00933: SQL ...·  2 年前    · 
Code  ›  AUCell | 识别单细胞对“基因集”的响应开发者社区
auc
https://cloud.tencent.com/developer/article/1684812
健壮的猴子
2 年前
作者头像
生信编程日常
0 篇文章

AUCell | 识别单细胞对“基因集”的响应

前往专栏
腾讯云
开发者社区
文档 意见反馈 控制台
首页
学习
活动
专区
工具
TVP
文章/答案/技术大牛
发布
首页
学习
活动
专区
工具
TVP
返回腾讯云官网
社区首页 > 专栏 > 生物信息学、python、R、linux > AUCell | 识别单细胞对“基因集”的响应

AUCell | 识别单细胞对“基因集”的响应

作者头像
生信编程日常
发布 于 2020-08-24 14:48:54
2.5K 0
发布 于 2020-08-24 14:48:54
举报

AUCell可以识别sc-RNA数据中具有活跃基因集或基因模块的细胞,即可以将某个通路的富集情况展现在聚类的细胞上,从而可以鉴定具有特定基因特征的细胞群。 AUCell使用“Area Under the Curve”(AUC)来计算输入基因集的关键子集是否在每个细胞内富集。AUC分数在所有细胞中的分布允许探索基因的相对表达。由于计分方法是基于排名的,因此AUCell不受基因表达单位和标准化程序的影响。此外,由于对细胞进行了单独评估,因此可以轻松地将其应用于更大的数据集,并可以根据需要对表达式矩阵进行分组。

AUCell的工作流基于三个步骤:

1.Build the rankings 2.Calculate the Area Under the Curve (AUC) 3.Set the assignment thresholds

运行AUCell

准备输入的数据以及富集的基因集。

1.输入的数据为单细胞的表达矩阵 2.基因集可以从BROAD下载GSEA基因集: MSigDB 如下载h.all.v7.1.symbols.gmt文件

运行AUCell

library(AUCell)
#Build gene expression rankings for each cell
CellRank<- AUCell_buildRankings(as.matrix(seurat.object@assays$RNA@data))
#load gene set, e.g. GSEA lists from BROAD
h <- read.gmt("data/h.all.v7.1.symbols.gmt") ##
head(h)

因为数据集的基因是人的,而我的表达矩阵的基因是小鼠的,所以通过转化大小写来讲人的基因转化成小鼠的。

library(Hmisc)
h$gene<-capitalize(tolower(h$gene))
head(h)
#将基因集改成通路对应相应基因的list格式
geneSets<-lapply(unique(h$ont),function(x){h$gene[h$ont==x]})
names(geneSets) <- unique(h$ont)
#Calculates the 'AUC' for each gene-set in each cell.
cells_AUC <- AUCell_calcAUC(geneSets, CellRank,nCores = 5, aucMaxRank=nrow(CellRank)*0.05)
#要测试的基因集
geneSet <- "HALLMARK_TNFA_SIGNALING_VIA_NFKB"
aucs <- as.numeric(getAUC(cells_AUC)[geneSet, ])
#将AUC的结果添加到seurat.object的meta.data中,并画图
seurat.object$AUC<-aucs
df<- data.frame(seurat.object@meta.data, seurat.object@reductions$umap@cell.embeddings)
library(dplyr)
class_avg <- df %>%
  group_by(cell_type) %>%
  summarise(
    UMAP_1 = median(UMAP_1),
    UMAP_2 = median(UMAP_2)
ggplot(df, aes(UMAP_1, UMAP_2))  +
  geom_point(aes(colour  = AUC)) + viridis::scale_color_viridis(option="A") +
  ggrepel::geom_label_repel(aes(label = cell_type),
                            data = class_avg,
 
推荐文章
另类的毛衣  ·  横评:五款免费开源的语音识别工具 | 雷峰网
3 月前
满身肌肉的包子  ·  js中使用正则表达式(五)特殊字符、匹配模式、捕获组与反向引用介绍_js 反向引用-CSDN博客
1 年前
任性的山羊  ·  我使用playsound()函数时遇到错误
1 年前
怕考试的仙人球  ·  Processing single-cell RNA-seq datasets using SingCellaR,STAR Protocols - X-MOL
1 年前
沉着的跑步鞋  ·  ORA-00933: SQL 命令未正确结束_sql命令未正确结束_abckingaa的博客-CSDN博客
2 年前
今天看啥   ·   Py中国   ·   codingpro   ·   小百科   ·   link之家   ·   卧龙AI搜索
删除内容请联系邮箱 2879853325@qq.com
Code - 代码工具平台
© 2024 ~ 沪ICP备11025650号