宏基因组实战之:质控去宿主
1、测序数据
数据来源于密歇根大学的一项研究,数据项目号为PRJNA389927。这个研究项目的包括正常、癌前病变和癌症病人样本共181例。项目对应的github地址:https://github.com/SchlossLab/Hannigan_CRCVirome_mBio_2018 ,也可以直接去ebi网站下载这个项目的原始测序数据,会给出下载用的shell脚本。
2、数据下载及质控
数据下载:
数据质控:
直接用fastp过滤
fastp -i $read1 -I $read2 -o ${srr}_1.fq.gz -O ${srr}_2.fq.gz
kneaddata:
集合了软件fastqc,trimmomatic数据过滤,bowtie2比对后去除宿主序列等功能,不指定软件参数安装路径则直接从环境变量中找。还自带数据库,包括人类的基因和转录组,小鼠基因组和silva核糖体数据库,具体信息见github:https://github.com/biobakery/kneaddata
kneaddata -i1 ${srr}_1.fq.gz -i2 ${srr}_2.fq.gz
--bypass-trim
--reorder
--bowtie2-options '--very-sensitive --dovetail'
--remove-intermediate-output
-v -t 3
-db $ref/GRCh38.p14
--output-prefix pre_$srr
-o 2.kneaddata/$srr
--bypass-trim:输入的是质控后的序列,不需要再次质控,参数指定后不调用trimmomatic数据过滤。
--remove-intermediate-output: 不保留中间文件,不指定默认保留
-db: 宿主基因组信息,这里为人类bowtie2预先构建索引,指定到索引前缀
--reorder:bowtie2的参数,保持输出read id顺序和输入一致
-t: 三个线程
-v: 日志冗余度控制
输出结果:
paired_[1/2].fastq就是质控的结果文件,自带模块kneaddata_read_count_table可以完成质控后各项指标汇总(log文件),前提是使用trimmomatic软件做过滤。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 没有源码,如何修改代码逻辑?
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战