生信:RNA-Seq 比对工具性能比较 [STAR、Tophat2、HISAT2]
1.生信:RNA-Seq 比对工具性能比较 [STAR、Tophat2、HISAT2]
RNA-Seq 比对工具性能比较
参考文章:
https://yanzhongsino.github.io/2021/11/19/omics_transcriptome.RNA-seq/
比对 (align) 介绍
序列比对 又称为 align
RNA-Seq 分析中的策略从文件类型来看如下:
FASTQ
文件到 SAM
文件这一步就需要比对软件 [STAR
、Tophat2
、HISAT2
] 来实现,目的是 把RNA-seq reads比对到合适的参考序列上.
如果用基因组作为参考序列可以检测到新的转录本,但可能需要耗费更多的计算资源;如果用转录组作为参考则无法找出新的转录本,但速度更快。如果研究物种没有可靠的参考序列,可以重头组装对转录本进行鉴定。这点在本文中不做过多介绍。接下来对RNA的 3 种比对策略进行介绍。
RNA-Seq的 3 种比对策略
STAR
优势在于 快,可以快速 mapping;
缺点在于需要内存大,可能达到 30Gb 左右的 RAM。
采用的算法为:Suffix Tree
。可以高效地处理长读,并具有高精度和高敏感性。
Tophat2
现代实验室不常用,其速度较慢,常与Cufflinks
连用。
采用的算法为:Bowtie2
即 BWT
HISAT2
作为Tophat2
升级版,其主要提升了速度,且低内存消耗。HISAT2在运行速度方面,比STAR快大约2.5倍。对SNP的信息进行了考虑 -- it can better handler known SNPs。
缺点在于没有STAR
准确率高。
采用的算法为:改进的BWT
方法,并引入了名为hierarchical indexing的概念。这种分层索引策略允许 HISAT2
首先在大的基因组区域中进行比对,然后在局部区域中进行细化比对,这大大提高了比对速度和效率。
附上发展的时间线:
Year | Software Name |
---|---|
2009 | Tophat |
2012 | STAR |
2013 | Tophat2 |
2015 | HISAT |
2019 | HISAT2 |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」