如何打开gtf格式的gencode基因注释文件(记事本 vs R语言rtracklayer)

gencode网站提供了基因注释文件

1 打开方式:记事本-excel

小一点的gtf格式文件可以当成txt格式用文记事本打开,然后复制粘贴到excel

如lncRNA注释文件:

excel

虽然格式不太完美(后面的gene_id、gene_name等都没分开),在excel调一下也还是可以的:

excel

选定数据分的不好的这一列,在“数据”栏点击“分列”,选择“分隔符号”分列,然后选上“分号”,这时候分号间隔的就分开了。

分列

里面多的字符如gene_id手动删除

2 打开方式:R语言rtracklayer

太大的注释文件用记事本就打不开了,可以用R语言中的rtracklayer包打开:


library("rtracklayer") #加载rtracklayer包
gc_data = import('gencode.v42.annotation.gtf') #输入要打开的gtf注释文件
gc_data <- as.data.frame(gc_data)#将文件转换为数据框格式

这时候就得到了数据:

rtracklayer

数据已完全分开,还没有多的字符。

看一下有多少gene类型:

table(gc_data$gene_type)


gene type

3 输出

可以直接输出为csv表格:

write.csv(gc_data,file = "gc.csv")

太大,不建议直接输出。

可以筛选出自己需要的数据再输出

如筛选出基因型为lncRNA和pseudogene的基因

3.1 先把基因名带“pseudogene”的基因名提取出来

lncRNA只有一种,但是pseudogene有很多种,所以需要先把基因名中带“pseudogene”的基因名提取出来

gt <- as.data.frame(table(gc_data$gene_type)) # 转换成数据框
gtp <- gt$Var1[str_detect(gt$Var1,"pseudogene")] # 提取出名称中带pseudogene的基因名称