宏基因组实战之:质控去宿主
1、测序数据
数据来源于密歇根大学的一项研究,数据项目号为PRJNA389927。这个研究项目的包括正常、癌前病变和癌症病人样本共181例。项目对应的github地址:https://github.com/SchlossLab/Hannigan_CRCVirome_mBio_2018 ,也可以直接去ebi网站下载这个项目的原始测序数据,会给出下载用的shell脚本。
2、数据下载及质控
数据下载:
数据质控:
直接用fastp过滤
fastp -i $read1 -I $read2 -o ${srr}_1.fq.gz -O ${srr}_2.fq.gz
kneaddata:
集合了软件fastqc,trimmomatic数据过滤,bowtie2比对后去除宿主序列等功能,不指定软件参数安装路径则直接从环境变量中找。还自带数据库,包括人类的基因和转录组,小鼠基因组和silva核糖体数据库,具体信息见github:https://github.com/biobakery/kneaddata
kneaddata -i1 ${srr}_1.fq.gz -i2 ${srr}_2.fq.gz
--bypass-trim
--reorder
--bowtie2-options '--very-sensitive --dovetail'
--remove-intermediate-output
-v -t 3
-db $ref/GRCh38.p14
--output-prefix pre_$srr
-o 2.kneaddata/$srr
--bypass-trim:输入的是质控后的序列,不需要再次质控,参数指定后不调用trimmomatic数据过滤。
--remove-intermediate-output: 不保留中间文件,不指定默认保留
-db: 宿主基因组信息,这里为人类bowtie2预先构建索引,指定到索引前缀
--reorder:bowtie2的参数,保持输出read id顺序和输入一致
-t: 三个线程
-v: 日志冗余度控制
输出结果:
paired_[1/2].fastq就是质控的结果文件,自带模块kneaddata_read_count_table可以完成质控后各项指标汇总(log文件),前提是使用trimmomatic软件做过滤。
作者:天使不设防
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利.