参考:https://mp.weixin.qq.com/s/yBsUwsMSexxzt2erL_y21g

1. 安装

下载地址 http://opengene.org/fastp/fastp

使用 chmod a+x ./fastp 增加该文件的可执行权限,然后就可以使用了。

 $ chmod 777 ./fastp

也可以从源代码进行编译,下载地址 https://github.com/OpenGene/fastp.git

$ cd fastp

$ make

$ sudo make install

2. 运行

$ fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz -q 20 -u 30 -l 75 -3  -W 4 -M 25 -w 24
 或
$ fastp -i 1.fq.gz -I 2.fq.gz -o out.1.fq.gz -O out.2.fq.gz -t 2 -T 2 -q 25 -u 20 -l 75 -3 -W 4 -M 30 -w 8
 
-i: read1 的输入
-o: read1 的输出
-I: read2的输入
-O: read2的输出
 
-q 15 -u 40: 表示一个 read 最多只能有 40%的碱基的质量值低于Q15,否则会被扔掉
-l: 指定最低要求一个 read 有多长
 
-3: read末尾滑动窗的剪裁
-W: 4 指定滑动窗大小
-M: 25 滑动窗平均质量值
 
-f: read1 头部的剪裁碱基数
-t: read1 尾部的剪裁碱基数
-F: read2 头部的剪裁碱基数
-T: read2 尾部的剪裁碱基数

-w: CPU线程数
 
注:fastp 可以自动化地查找接头序列并进行剪裁,也就是说你可以不输入任何的接头序列,fastp 全自动搞定了!
 
数据量足够时,条件控制严格点,得到的结果有差别,严格控制得到的转录本比宽松控制得到的转录本要少很多(24万vs30万,unigene 15万vs20万)。