Trimmomatic安装及使用

Trimmomatic,用于二代序列去接头,同时可以自定义指定的接头序列,同时也能够过滤read末尾的低质量序列,多线程运行,速度较快。

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4103590/

一、安装

conda install -c bioconda trimmomatic

二、用法 

有PE/SE两种模式,使用于双端/单端序列去接头

PE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-summary <statsSummaryFile>] [-quiet] [-validatePairs] [-basein <inputBase> | <inputFile1> <inputFile2>] [-baseout <outputBase> | <outputFile1P> <outputFile1U> <outputFile2P> <outputFile2U>] <trimmer1>...

SE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-summary <statsSummaryFile>] [-quiet] <inputFile> <outputFile> <trimmer1>...

三、过滤步骤

Trimmomatic过滤数据的步骤与命令行中过滤参数的顺序有关,通常的过滤步骤如下:

ILLUMINACLIP: 过滤 reads 中的 Illumina 测序接头和引物序列,并决定是否去除反向互补的 R1/R2 中的 R2。
SLIDINGWINDOW: 从 reads 的 5' 端开始,进行滑窗质量过滤,切掉碱基质量平均值低于阈值的滑窗。
MAXINFO: 一个自动调整的过滤选项,在保证 reads 长度的情况下尽量降低测序错误率,最大化 reads 的使用价值。
LEADING: 从 reads 的开头切除质量值低于阈值的碱基。
TRAILING: 从 reads 的末尾开始切除质量值低于阈值的碱基。
CROP: 从 reads 的末尾切掉部分碱基使得 reads 达到指定长度。
HEADCROP: 从 reads 的开头切掉指定数量的碱基。
MINLEN: 如果经过剪切后 reads 的长度低于阈值则丢弃这条 reads。
AVGQUAL: 如果 reads 的平均碱基质量值低于阈值则丢弃这条 reads。
TOPHRED33: 将 reads 的碱基质量值体系转为 phred-33。
TOPHRED64: 将 reads 的碱基质量值体系转为 phred-64。

四、实例说明

#示例1

#输入文件NGS序列以及接头序列,后接相关的控制参数
trimmomatic PE -threads 5 rawReads/SRR2121770_1.fastq.gz rawreads/SRR2121770_2.fastq.gz -baseout trimmedReads/SRR21770 ILLUMINACLIP:TruSeg3-PE-2.fa:2:30:10:2:keepBothReads LEADING:3 TRAILING:3 MINLEN:36 2> trimmedReads/SRR2121770trimming.log

#示例2

#批量并行处理,准备NGS文件名列表,使用{}匹配文件名
cat SRR_Cbp_List.txt | parallel -j 4 "trimmomatic PE -threads 5 rawReads/{}_1.fastq.gz rawreads/{}_2.fastq.gz -baseout trimmedReads/{} ILLUMINACLIP:TruSeg3-PE-2.fa:2:30:10:2:keepBothReads LEADING:3 TRAILING:3 MINLEN:36 2> trimmedReads/{}trimming.log"
posted @ 2022-09-17 20:51  pd_liu  阅读(1797)  评论(0编辑  收藏  举报