fastq数据质控过滤软件—soapnuke 使用
#soapnuke githup地址: https://github.com/BGI-flexlab/SOAPnuke #下载 git clone https://github.com/BGI-flexlab/SOAPnuke.git # 安装2.0version 参照readme.md For 2.X: make ./SOAPnuke
--使用测试:
./SOAPnuke filter -1 /home_extend/u****/R/exam/newBGIseq500_1.fq.gz -2 /home_extend/u****/R/exam/newBGIseq500_2.fq.gz -C newBGIseq500_clean_1.fq.gz -D newBGIseq500_clean_2.fq,gz \ -l 10 -q 0.1 -n 0.01 -G 1 -Q 2 -o /home_extend/u****/R/exam/cleandata ## -o 指定输出目录
--参数设置介绍:
SOAPnuke -1 path_to_Fastq1 -2 path_to_Fastq2 -T 4 -n 0.1 -l 5 -q 0.5 -Q 2 -G -5 1 -o outdir -C path_to_cleanFastq1 -D path_to_cleanFastq2 # 参数说明 -T 线程 #Adapter related: -n, --nRate FLOAT N rate threshold [0.05] -l, --lowQual INT low quality threshold [5] -q, --qualRate FLOAT low quality rate [0.5] -Q, --qualSys INT quality system 1:illumina, 2:sanger[1],详见-G 参数。 -G, --outQualSys out quality system 1:illumina, 2:sanger[1],如果设置了就表示质量值体系选择为phred33,默认是phred64。这个说明文档不是很清楚, 在SOAPnuke中sanger表示phred33,illumina表示phred64质量体系。之所以会这样其实开发该软件的历史原因,在比较早期的时候,phred33和phred64这两个词用的还比较少。 开发人员知道的是sanger测序的质量值是ASCII-33,而illumina的质量值要-64(早期版本),因此为了好记,就直接用了这两个词,代表和sanger的一样,或者和illumina的一样; 这个参数和-Q是有同样的作用。-33的质量体系,使用-Q 2 (或者 -G ,也可以两个参数都使用) -1, --fq1 FILE fq1 file(required),read1的fasq文件 -2, --fq2 FILE PE(双端)测序时,需要read2的fastq文件 ,即fastq2 -C, --cleanFq1 STR clean fq1 file name(required ,gz format) -D, --cleanFq2 STR clean fq2 file name -o, --outDir STR 输出目录,默认当前目录 -3, --maxReadLen INT read max length,default 49 for filtersRNA -4, --minReadLen INT read min length,default 18 for filtersRNA,30 for other modules