Nanopore从下机到组装流程总结

拼接部分采用默认参数。适用于ONT组装,对于PacBio数据有更优的软件处理,此处不讨论。

总的来说,拿到ONT的数据后,建议先尝试miniasm快速拼接看一下拼接情况,再决定使用什么策略进行精细的组装。这里列出了六种可用于ONT组装的软件的相关用法,另外还有FALCON可以尝试,看文献近两年好像使用不多,此处不列出。

大致总结流程,统计、QC质控以及数据过滤使用的软件未必唯一。

一、数据统计

seqkit stats ont.fq.gz

二、QC质控

NanoPlot --fastq ont.fq.gz --plots kde hex dot pauvre -f png -t 12 -o nanoplot

三、filter过滤数据

filtlong --min_length 500 --min_mean_q 7 ont.fq.gz |  gzip >ont.clean.fq.gz

四、拼接

#MINIASM拼接

minimap2 -x ava-ont -t 128 ont.fq.gz ont.fq.gz | gzip -1 > reads.paf.gz
miniasm -f ont.fq.gz reads.paf.gz > reads.gfa
gfatools gfa2fa reads.gfa

#SMARTDENOVO拼接

perl smartdenovo.pl -c 1 -t 8 -p smartdenovo -J 500 -k 16 ont.clean.fq.gz >wtasm.mak
make -f wtasm.mak
gunzip smartdenovo.fa.gz

#wtdbg2

./wtdbg2 -x rs -g 4.6m -i reads.fa.gz -t 16 -fo dbg
./wtpoa-cns -t 16 -i dbg.ctg.lay.gz -fo dbg.raw.fa
# polish consensus, not necessary if you want to polish the assemblies using other tools
minimap2 -t16 -ax map-pb -r2k dbg.raw.fa reads.fa.gz | samtools sort -@4 >dbg.bam
samtools view -F0x900 dbg.bam | ./wtpoa-cns -t 16 -d dbg.raw.fa -i - -fo dbg.cns.fa

#NextDenovo

nextDenovo run.cfg

#flye

flye --nano-raw Loman_E.coli_MAP006-1_2D_50x.fasta --asm-coverage 50x --out-dir out_nano --threads 8

#canu

canu -d canu -p canu genomeSize=107m -nanopore-raw ont.fq.gz

五、整合方案选择

1、GPM: Genome Puzzle Master,整合多个assemblies。看了一下,安装相对复杂,战略性搁置。

2、Quickmerge:使用较为简单,一次合并两个Assembllies。

3、QUAST:允许多个assemblies输入,可以比较组装的优劣,选其中最优。

posted @ 2022-09-27 21:49  pd_liu  阅读(1007)  评论(0编辑  收藏  举报