宏基因组实战之：质控去宿主

1、测序数据

数据来源于密歇根大学的一项研究，数据项目号为PRJNA389927。这个研究项目的包括正常、癌前病变和癌症病人样本共181例。项目对应的github地址：https://github.com/SchlossLab/Hannigan_CRCVirome_mBio_2018 ，也可以直接去ebi网站下载这个项目的原始测序数据，会给出下载用的shell脚本。

2、数据下载及质控

数据下载：

数据质控：
直接用fastp过滤
fastp -i $read1 -I $read2 -o ${srr}_1.fq.gz -O ${srr}_2.fq.gz

kneaddata：
集合了软件fastqc，trimmomatic数据过滤，bowtie2比对后去除宿主序列等功能，不指定软件参数安装路径则直接从环境变量中找。还自带数据库，包括人类的基因和转录组，小鼠基因组和silva核糖体数据库，具体信息见github：https://github.com/biobakery/kneaddata

kneaddata -i1 ${srr}_1.fq.gz -i2 ${srr}_2.fq.gz 
	--bypass-trim 
	--reorder 
	--bowtie2-options '--very-sensitive --dovetail' 
	--remove-intermediate-output 
	-v -t 3 
	-db $ref/GRCh38.p14
	--output-prefix pre_$srr 
	-o 2.kneaddata/$srr

--bypass-trim：输入的是质控后的序列，不需要再次质控，参数指定后不调用trimmomatic数据过滤。
--remove-intermediate-output: 不保留中间文件，不指定默认保留
-db: 宿主基因组信息，这里为人类bowtie2预先构建索引，指定到索引前缀
--reorder：bowtie2的参数，保持输出read id顺序和输入一致
-t: 三个线程
-v: 日志冗余度控制
输出结果：

paired_[1/2].fastq就是质控的结果文件，自带模块kneaddata_read_count_table可以完成质控后各项指标汇总(log文件)，前提是使用trimmomatic软件做过滤。

posted @ 2024-08-09 13:52 天使不设防阅读(208) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 宏基因组实战之：样本组装

· 生信工具推荐之(2) datasets

· 宏基因组测序流程及其分析步骤

· 高通量测序的数据处理与分析(二)--宏基因组2

· 【宏基因组测序流程】

阅读排行：
· 微软正式发布.NET 10 Preview 1：开启下一代开发框架新篇章
· 没有源码，如何修改代码逻辑？
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· WPF到Web的无缝过渡：英雄联盟客户端的OpenSilver迁移实战

公告

昵称：天使不设防
园龄： 5年3个月
粉丝： 19
关注： 19

+加关注

2025年2月

日

一

二

三

四

五

六

天使不设防

学习不会让你变得全知全能但能让你变得不再害怕未知

宏基因组实战之：质控去宿主

1、测序数据

2、数据下载及质控

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

学习不会让你变得全知全能 但能让你变得不再害怕未知

1、测序数据

2、数据下载及质控

公告

搜索

常用链接

最新随笔

积分与排名

随笔档案

学习不会让你变得全知全能但能让你变得不再害怕未知