Trim Galore用法及参数考量

Trim Galore是一个非常流行的用于「去接头序列」的软件,用于处理高通量测序得到的原始数据。通常我们从测序公司拿到数据后,第一步就是评估数据的质量以及对raw data去接头处理。公司拿来的数据通常附带了clean data以及去接头的说明文件,我自己重新实现了一下trim的过程。参数都是根据公司的说明文件来设定的。

软件说明

版本信息

  1. Trim Galore version: 0.4.1
  2. Cutadapt version: 1.11
  3. FastQC version:0.11.3

依赖环境

  1. FastQC
  2. Cutadapt

软件安装

Trim Galore直接在官网下载解压后即可使用(perl文件,无需任何安装)。

参数概览

这里只讨论了部分参数(与我的数据相关的部分,数据情况请参照下面)。其余参数的设定可以参考「官方文档」(Trim_Galore_User_Guide)。

  • -q/–quality :控制的质量分数阈值
  • –length :丢弃小于此长度的读段
  • -e:允许的错误率
  • –stringency:限定最少与adaptor序列重叠的碱基数(用来trim的标准)
  • -o:输出文件路径

案例分析

测序数据

Illumina Hiseq3000
Paired-end RNA-seq

代码展示

/.../trim_galore /.../*_R1.fastq /.../*_R2.fastq -q 25 --length 50 -e 0.1 --stringency 5 -o /.../ -a adapter1 -a2 adapter2 --paired

软件输出

Trimming mode: paired-end
Trim Galore version: 0.4.1
Cutadapt version: 1.11
Quality Phred score cutoff: 25
Quality encoding type selected: ASCII+33
Adapter sequence: …
Maximum trimming error rate: 0.1 (default)
Optional adapter 2 sequence (only used for read 2 of paired-end files): …
Minimum required adapter overlap (stringency): 5 bp
Minimum required sequence length for both reads before a sequence pair gets removed: 50 bp

参考资料

http://www.bioinformatics.bbsrc.ac.uk/projects/trim_galore/

posted @   emanlee  阅读(7942)  评论(0编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
历史上的今天:
2010-01-21 Report Viewer Large Data
2008-01-21 asp.net中给用户控件添加自定义事件
点击右上角即可分享
微信分享提示