Jellyfish: 快速统计长序列中每个K-mers出现次数
Jellyfish: 快速统计长序列中每个K-mers出现次数
一个老工具,2011 发表于Bioinformatics,目前引用1018次。因为需要用所以看了一下原文。
Jellyfish,是此研究开发的,可以快速统计长序列中每个K-mers出现次数的软件。
基于K-mers的应用很广,包括基因组组装、测序读长的错误纠正、快速多序列比对、重复检测、引物设计等等。
因此对K-mers的高效统计对提高效率十分重要。
Jellyfish可并行运算,快速的统计不超过长度31个碱基的K-mers。软件基于C++,下载地址为:
http://www.cbcb.umd.edu/software/jellyfish
总的来说,Jellyfish相较之前的软件占用内存低一个数量级,而速度则高一个数量级。
目前Jellyfish已经更新到了2.0版本,最近一次更新是2015年更新到Jellyfish 2.2.3。2.0版本最大的优化是不再限制K-mers的长度。
下载及使用见:
http://www.genome.umd.edu/jellyfish.html#Release
Github上也有说明文档:
https://github.com/gmarcais/Jellyfish/tree/develop/swig
目前jellyfish也已经被写入到了Python, Ruby和Perl中。
—END—