#输入上述命令查看是否成功安装,以下为该命令运行结果的一部分。 usage: flye ( --pacbio-raw | --pacbio-corr | --pacbio-hifi | --nano-raw | --nano-corr | --nano-hq ) file1 [ file_2 .. . ] --out-dir PATH [ --genome-size SIZE ] [ --threads int ] [ --iterations int ] [ --meta ] [ --polish-target ] [ --min-overlap SIZE ] [ --keep-haplotypes ] [ --debug ] [ --version ] [ --help ] [ --scaffold ] [ --resume ] [ --resume-from ] [ --stop-after ] [ --read-error float ] [ --extra-params ]

2. 测试数据下载

# https://github.com/fenderglass/Flye/blob/flye/docs/USAGE.md#-examples
wget https://zenodo.org/record/1172816/files/E.coli_PacBio_40x.fasta
# Pacbio data
wget https://zenodo.org/record/1172816/files/Loman_E.coli_MAP006-1_2D_50x.fasta
# Nanopore data

3. 测试数据运行

flye --pacbio-raw ../data/E.coli_PacBio_40x.fasta --out-dir ./out_pacbio --threads 4
flye --nano-raw ../data/Loman_E.coli_MAP006-1_2D_50x.fasta --out-dir ./out_nano --threads 4
--pacbio-raw  传入pacbio的原始数据
--nano-raw  传入nanopore的原始数据
--out-dir  输出结果存放路径
--threads  线程数
--pacbio-corr / --nano-corr  校正需要的时间较长,且效果也不明显,一般直接用传入原始数据了
00-assembly #构建基因组草图
10-consensus #基于草图基因组对数据进行纠错
20-repeat #对重复序列进行处理
30-contigger #构建contig
40-polishing #对结果进行校正
assembly.fasta #组装的最终结果,进行下游分析的文件
assembly_graph.gfa
assembly_graph.gv
assembly_info.txt
flye.log
params.json
 

上方是Flye的下载安装运行的流程,由于Flye可以通过–pacbio-raw/nano-raw传入原始的下机数据,上述流程中未进行数据过滤
过滤与不过滤的数据对最后的结果影响不大,选用–pacbio-raw/–nano-raw参数,Flye也会对数据进行过滤,质控过滤的流程如下

NanoPlot 质控

https://github.com/wdecoster/NanoPlot
#安装NanoPlot
conda create -n nanoplot -y -c bioconda nanoplot
# 启动虚拟环境,每次使用前必用
conda activate nanoplo
NanoPlot --fastq ../data/nanopore.fastq.gz -o nanoplot -t 12

filtlong 过滤

filtlong --min_length 1000 --min_mean_q 80 ../data/nanopore.fastq.gz | gzip > clean.filter.fq.gz
# 由于filtlong传入的是压缩文件,输出结果为fastq文件,这与NanoPlot质控软件的传入文件格式不符,因此加上管道符|gzip命令进行压缩

过滤完数据再质控

比较过滤前后数据的差异

NanoPlot --fastq clean.filter.fq -o clean -t 12

对组装结果进行评估

利用quast软件评估组装结果

quast -o quast -r *.fa # 组装结果评估
                                    B04Sm5_genome_completion
 该储存库包含有关变形链球菌菌株B04Sm5基因组完成中使用的软件版本和参数的信息。 样本脚本(包括实际基因组组装中使用的参数)位于B04Sm5_genome_tool_parameters.sh文件中。
 工具和版本:
 Guppy v4.8.11 kneaddata v0.5.4 Filtlong v0.2.0 Flye v.2.8-b1674 hybridSPAdes v.3.14.0 Unicycler v.0.4.8 Trycycler v.0.3.0 medaka v.1.0.3 庇隆v.1.23
                                    最近拿到了nanopore的数据,尝试对其组装。目前用的是Canu,预计2个月内才能走完第一波分析,速度实在感人,所以翻了翻文献,找找组装方法。
目前Nanopore卖点主要是两个角度:第一是Nanopore的读长长,某些情况下能够达到单条上M,但是这种情况可遇而不可求,很多时候只存在于宣传册上。另一个则是Nanpore便宜,这样就能够保证测序深度,从而提高组装质量。
但是Na...
                                    简介二代测序最常用的质量评估软件是FastQC,多样本时可进一步结合MultiQC。此外速度超快的fastp也特别推荐,而且包括质量评估、质量控制等功能,可以说是国产软件之光,详见下方详...
                                    Filtlong是用于按质量过滤长读的工具。 它可能需要进行长时间的读取,并产生一个较小的更好的子集。 它采用两个读出长度(较长越好)和读身份(更高更好是)时选择其读取通过过滤器。
Linux或macOS
 C ++编译器(应使用GCC 4.8或更高版本)
 zlib(通常包含在Linux / macOS中)
Filtlong内置于独立的可执行文件中:
 git clone https://github.com/rrwick/Filtlong.git
cd Filtlong
make -j
bin/filtlong -h
如果您打算大量使用Filtlong,建议您将其复制到PATH中的目录中:
 cp bin/filtlong /usr/local/bin
示例命令(快速)
 没有外部参考
filtlong --min_length 1000 --keep_percent
                                    内蒙古人肠道菌群高质量基因组集合A high-quality genome compendium of the human gut microbiome of Inner MongoliansResource,2023年1月5日,Nature Microbiology,[IF 30.964]DOI:https://doi.org/10.1038/s41564-022-01270-1原文链接:htt...
                                    本文转载自知乎 nanopor技术专栏,修改了其中部分代码。单分子纳米孔测序使用的软件使用HDFView 查看Fast5文件格式。https://www.hdfgroup.org/downloads/hdfview/使用ont_fast5_api软件对fast5文件进行拆分与合并ont_fast5_api 网址安装直接使用pip安装pip install ont-fast5-api自行编译安装gi...
                                    最近用Arduino做电子秤,为了解决数据的跳变研究了不少滤波算法。网上能找到大把的十大滤波算法帖子,每一篇都不太一样,都号称精编啊,除错啊什么的,可是放到板子里却没一个能正常跑起来的。于是决定自己整理一下这些程序,完美移植到Arduino中。
所以大家看到这个帖子的时候,不要怀疑我重复发帖。我的代码都是经过反复试验,复制到Arduino中就能开跑的成品代码,移植到自己的程序中非常方便。而且
                                    基因组装配评估工具
QUAST代表“质量评估工具”。 它通过计算各种指标来评估基因组/元基因组装配。 当前的QUAST工具包包括用于基因组装配的通用QUAST工具,MetaQUAST(用于宏基因组数据集的扩展),QUAST-LG(用于大型基因组(例如哺乳动物)的扩展)以及Icarus(用于这些工具的交互式可视化工具)。
 QUAST软件包在有或没有参考基因组的情况下均可工作。 但是,如果至少有一个紧密的参考基因组与装配体一起提供,则将提供更多信息。 该工具可以接受多个组件,因此适合进行比较。
 该README文件简要介绍了QUAST的安装,基本用法和输出解析。 提供了有关这些主题和许多其他主题的详细说明。 QUAST工具包的最新稳定版本还有更多安装方法,在将讨论所有安装方法。 对于最新版本,请克隆我们的 。
 请参考文件以获取版权和引用说明。
支持Linux(64位和32位,功能
                                    QUAST执行快速方便的质量评估和基因组装配比较。 QUAST计算了许多众所周知的指标,包括重叠群准确性,发现的基因数量,N50和其他指标,以及引入了新的指标,例如NA50(请参见本文和手册中的详细信息)。 全面的分析得出汇总表(纯文本,制表符分隔和LaTeX格式)和彩色图表。 该工具还可以生成基于Web的报告,将所有信息压缩到一个易于浏览的文件中。 QUAST具有直观的命令行界面和详细的手册,可帮助用户运行它并了解其输出。 此外,实验室在http://quast.bioinf.spbau.ru/上启动了Web-QUAST的Beta版,这使质量评估更加简单。 QUAST和MetaQUAST(宏基因组程序集的扩展名)论文发表在《生物信息学》上。
                                     前段时间发现Windows可以安装Linux子系统了,恰逢电脑换了固态,还没装Linux,不如趁机体验一番!1、准备工作1.1、打开Windows的子系统功能1.2、打开Windows开发人员模式打开设置–>更新和安全–>针对开发人员,选择开发人员模式–>确定 确认后,重启电脑,系统更新配置。2、安装Linux子系统2.1、在Windows商店搜索安装Linux子系统这里以安装...
                                    使用重复图组装长且容易出错的读操作
精确的基因组装配受到重复区域的阻碍。尽管长单分子测序读序列比短读序列能够更好地解决基因组重复,但大多数长读序列装配算法并没有提供产生最佳装配所需的重复特征。
在这里,我们提出了Flye,一种长读组装算法,它在一个未知的重复图中生成任意路径,称为脱节图,并从这些错误百出的脱节图中构造一个精确的重复图。我们将Flye与五种最先进的组装器进行基准测试,结果表明它可...
                                    基因组组装准备工作
基因组组装一般分为三个层次,contig, scaffold和chromosomes。
contig表示从大规模测序得到的短读(reads)中找到的一致性序列。组装的第一步就是从短片段(pair-end)文库中组装出contig。进一步基于不同长度的大片段(mate-pair)文库,将原本孤立的contig按序前后连接,其中会调整contig方向以及contig可能会存在开口(...