Nanopore从下机到组装流程总结
拼接部分采用默认参数。适用于ONT组装,对于PacBio数据有更优的软件处理,此处不讨论。
总的来说,拿到ONT的数据后,建议先尝试miniasm快速拼接看一下拼接情况,再决定使用什么策略进行精细的组装。这里列出了六种可用于ONT组装的软件的相关用法,另外还有FALCON可以尝试,看文献近两年好像使用不多,此处不列出。
大致总结流程,统计、QC质控以及数据过滤使用的软件未必唯一。
一、数据统计
seqkit stats ont.fq.gz
二、QC质控
NanoPlot --fastq ont.fq.gz --plots kde hex dot pauvre -f png -t 12 -o nanoplot
三、filter过滤数据
filtlong --min_length 500 --min_mean_q 7 ont.fq.gz | gzip >ont.clean.fq.gz
四、拼接
#MINIASM拼接
minimap2 -x ava-ont -t 128 ont.fq.gz ont.fq.gz | gzip -1 > reads.paf.gz
miniasm -f ont.fq.gz reads.paf.gz > reads.gfa
gfatools gfa2fa reads.gfa
#SMARTDENOVO拼接
perl smartdenovo.pl -c 1 -t 8 -p smartdenovo -J 500 -k 16 ont.clean.fq.gz >wtasm.mak
make -f wtasm.mak
gunzip smartdenovo.fa.gz
#wtdbg2
./wtdbg2 -x rs -g 4.6m -i reads.fa.gz -t 16 -fo dbg
./wtpoa-cns -t 16 -i dbg.ctg.lay.gz -fo dbg.raw.fa
# polish consensus, not necessary if you want to polish the assemblies using other tools
minimap2 -t16 -ax map-pb -r2k dbg.raw.fa reads.fa.gz | samtools sort -@4 >dbg.bam
samtools view -F0x900 dbg.bam | ./wtpoa-cns -t 16 -d dbg.raw.fa -i - -fo dbg.cns.fa
#NextDenovo
nextDenovo run.cfg
#flye
flye --nano-raw Loman_E.coli_MAP006-1_2D_50x.fasta --asm-coverage 50x --out-dir out_nano --threads 8
#canu
canu -d canu -p canu genomeSize=107m -nanopore-raw ont.fq.gz
五、整合方案选择
1、GPM: Genome Puzzle Master,整合多个assemblies。看了一下,安装相对复杂,战略性搁置。
2、Quickmerge:使用较为简单,一次合并两个Assembllies。
3、QUAST:允许多个assemblies输入,可以比较组装的优劣,选其中最优。