流程管理工具snakemake学习笔记杂记

相关文章推荐

爱旅游的茄子 · 官宣！体操冠军程然成为金惟他品牌形象大使！_葡萄糖· 9 月前 ·

善良的红酒 · NBA2k20 街球日常约基奇 ...· 9 月前 ·

淡定的匕首 · 中国现代奇幻文学为什么很难写出《巫师》和《冰 ...· 10 月前 ·

重情义的小马驹 · 一汽是国企吗_太平洋汽车网· 1 年前 ·

会搭讪的领结 · 曲根万词班有用吗 ...· 1 年前 ·

腾讯云

备案控制台

开发者社区

TVP

文章/答案/技术大牛

写文章

专栏首页小明的数据分析笔记本流程管理工具snakemake学习笔记杂记

2 0

分享

import os
import glob
input_folder = "/home/myan/scratch/private/pome_WGS/huoyan_14_variety/"
output_folder = "/home/myan/scratch/private/practice_data/snakemake/20220412/fastp.results/"
SRA,FRR = glob_wildcards(input_folder+"{sra}_{frr}.fq.gz")
rule all:
    input:
        expand(output_folder+"{sra}.html",sra=SRA),
        expand(output_folder+"{sra}.json",sra=SRA)
rule fastp:
    input:
        read01 = input_folder + "{sra}_1.fq.gz",
        read02 = input_folder + "{sra}_2.fq.gz"
    output:
        read01 = output_folder + "{sra}_1.clean.fq.gz",
        read02 = output_folder + "{sra}_2.clean.fq.gz",
        html = output_folder + "{sra}.html",
        json = output_folder + "{sra}.json"
    threads:
    shell:
        fastp -i {input.read01} -I {input.read02} -o {output.read01} -O {output.read02} --thread {threads} --html {output.html} --json {output.json}

input_folder:
    "/home/myan/scratch/private/practice_data/RNAseq/chrX_data/"
output_folder:
    "/home/myan/scratch/private/practice_data/RNAseq/snakemake.rnaseq/"
index_folder:
    "/mnt/shared/scratch/myan/private/practice_data/RNAseq/chrX_data/indexes/"
index_name:
    "chrX_tran"
samples_folder:
    "/mnt/shared/scratch/myan/private/practice_data/RNAseq/chrX_data/samples/"
gtf_folder:
    "/mnt/shared/scratch/myan/private/practice_data/RNAseq/chrX_data/genes/chrX.gtf"

configfile: "config.yaml"
import os
import glob
print(config)
print(config['input_folder'])
print(config['output_folder'])
SRR,FRR = glob_wildcards(config['samples_folder']+"{srr}_chrX_{frr}.fastq.gz")
rule all:
    input:
        expand(config["output_folder"] + "output.sam/{srr}.sam",srr=SRR),
        expand(config['output_folder'] + "output.bam/{srr}.bam",srr=SRR),
        expand(config['output_folder'] + "output.gtf/{srr}.gtf",srr=SRR)
rule hisat2:
    input:
        read01 = config['samples_folder'] + "{srr}_chrX_1.fastq.gz",
        read02 = config['samples_folder'] + "{srr}_chrX_2.fastq.gz",
    output:
        sam = config['output_folder'] + "output.sam/{srr}.sam"
    threads:
    params:
        index_file = config['index_folder']+config['index_name']
    shell:
        hisat2 -p {threads} --dta -x {params.index_file} -1 {input.read01} -2 {input.read02} -S {output.sam}
rule samtools:
    input:
        sam = rules.hisat2.output.sam
    output:
        bam = config['output_folder'] + "output.bam/{srr}.bam"
    threads:
    shell:
        samtools sort -@ {threads} -o {output.bam} {input.sam}
rule stringtie:
    input:
        gtf = config['gtf_folder'],
        bam = rules.samtools.output.bam
    output:
        gtf = config['output_folder'] + "output.gtf/{srr}.gtf"
    params:
        l = "{srr}"
    threads:
    shell:
        stringtie -p {threads} -G {input.gtf} -o {output.gtf} -l {params.l} {input.bam}

SRR, = glob_wildcards("output.gtf/"+"{srr}.gtf")
#SRR = ["ERR188401","ERR204916"]
#rule all:
#    input:
#        expand("output.gtf/"+"{srr}.gtf",srr=SRR),
rule gtflist:
    input:
        gtffiles = expand("output.gtf/"+"{srr}.gtf",srr=SRR)
    output:
        output_txt = "MergedList.txt"
        with open(output.output_txt,'w') as f:
            for gtf in input.gtffiles:
                print(gtf,file=f)

SRR, = glob_wildcards("output.gtf/"+"{srr}.gtf")
#SRR = ["ERR188401","ERR204916"]
rule all:
    input:
        #expand("output.gtf/"+"{srr}.gtf",srr=SRR),
        "MergedList.txt",
rule gtflist:
    input:
        gtffiles = expand("output.gtf/"+"{srr}.gtf",srr=SRR)
    output:
        output_txt = "MergedList.txt"
        with open(output.output_txt,'w') as f:
            for gtf in input.gtffiles:
                print(gtf,file=f)
rule stringtieMerge:
    input:
        refgtf = "/mnt/shared/scratch/myan/private/practice_data/RNAseq/chrX_data/genes/chrX.gtf",
        gtflist = "MergedList.txt"
    output:
        gtf = "output.merged.gtf/StringtieMerged.gtf"
        "output.merged.gtf/StringtieMerge.logs"
    threads:
    params:
        "-m 200 -c 3"
    shell:
        stringtie --merge {params} -p {threads} -G {input.refgtf} -o {output.gtf} {input.gtflist}

SRR, = glob_wildcards("output.gtf/"+"{srr}.gtf")
#SRR = ["ERR188401","ERR204916"]
rule all:
    input:
        #expand("output.gtf/"+"{srr}.gtf",srr=SRR),
        "MergedList.txt",
        "output.merged.gtf/StringtieMerged.gtf"
rule gtflist:
    input:
        gtffiles = expand("output.gtf/"+"{srr}.gtf",srr=SRR)
    output:
        output_txt = "MergedList.txt"
        with open(output.output_txt,'w') as f:
            for gtf in input.gtffiles:
                print(gtf,file=f)
rule stringtieMerge:
    input:
        refgtf = "/mnt/shared/scratch/myan/private/practice_data/RNAseq/chrX_data/genes/chrX.gtf",
        gtflist = "MergedList.txt"
    output:
        gtf = "output.merged.gtf/StringtieMerged.gtf"
        "output.merged.gtf/StringtieMerge.logs"
    threads:
    params:
        "-m 200 -c 3"
    shell:
        stringtie --merge {params} -p {threads} -G {input.refgtf} -o {output.gtf} {input.gtflist}

rule useRscriptinsnakemake:
    input:
        ballgown_folder = "ballgown",
        pheno = "geuvadis_phenodata.csv"
    output:
        rdat = "bg_chrX_1.Rdata"
    #conda:
        #"envs/ballgown.yaml"
    script:
        "scripts/ballgown_1.R"

name: rnaseq_pra
channels:
  - conda-forge
  - biocondas
dependencies:
  - r=4.0=r40hd8ed1ab_1004
  - bioconductor-ballgown=2.22.0=r40hdfd78af_1

library(ballgown)
library(genefilter)
pheno_data = read.csv(snakemake@input[["pheno"]])
bg_chrX = ballgown(dataDir = snakemake@input[["ballgown_folder"]],samplePattern = "ERR",pData = pheno_data)
bg_chrX_filt = subset(bg_chrX,"rowVars(texpr(bg_chrX)) > 1",genomesubset=TRUE)
results_transcripts = stattest(bg_chrX_filt,feature="transcript",covariate="sex",adjustvars=c("population"),getFC=TRUE,meas="FPKM")
save(bg_chrX,results_transcripts,file=snakemake@output[["rdat"]])

rule Part06_CircRNA_Analysis_06_Bam2Anchors:
    input:
        bam = OUTPUTDIR + "./CircRNA/05.UnmappedBam/{sample}.unmapped.bam",
        bai = OUTPUTDIR + "./CircRNA/05.UnmappedBam/{sample}.unmapped.bai"
    output:
        fq = OUTPUTDIR + "./CircRNA/06.Bam2Anchors/{sample}/unmapped_anchors.fq.gz"
    params:
        DIR = OUTPUTDIR + "./CircRNA/06.Bam2Anchors/{sample}"
        import os
        import subprocess
        if not os.path.exists(params.DIR):
            os.makedirs(params.DIR)
        cmd = ("source activate find_circ_env && unmapped2anchors.py {bam} | "
        " gzip > {fq} && conda deactivate").format(bam=input.bam, fq=output.fq)
        print(cmd)
        subprocess.call(cmd, shell=True)

用户7010445

流程管理工具snakemake学习笔记杂记

流程管理工具snakemake学习笔记杂记

snakemake学习笔记001：使用fastp对原始数据过滤

参考

snakemake学习笔记002：hisat2+samtools+stringtie流程转录组分析

snakemake学习笔记003：stringtie合并转录本

第一行SRR后面有一个逗号

snakemake学习笔记004:前后两个rule为啥连不起来呢？

snakemake学习笔记005：流程里使用R脚本

流程管理工具snakemake学习笔记杂记02

snakemake 学习笔记3

snakemake 学习笔记4

snakemake 学习笔记2

​宏转录组学习笔记（三）--通过脚本和snakemake实现自动化

activiti学习笔记(五) 流程部署

Android系统启动流程 -- 学习笔记

activiti学习笔记(二) 获取流程实例

宏转录组学习笔记（三）--通过脚本和snakemake实现自动化