[bio] STAR 通用超快的RNA aligner

rna call varients时gatk推荐工具,broad institute都推荐了,还是encode计划时冷泉港内部开发的,特点:超级快速(8min map完6gb的reads)、as支持性好、支持长reads、全转录本、发现嵌合转录本等,有理由看一下。百度了下,没中文的博文,我来翻译一个吧……

####################

原理:

STAR utilizes sequential maximum mappable seed search in uncompressed suffix arrays followed by seed clustering and stitching procedure.

####################

使用:

没耐心读manual的人:

1.安装:

建议下这个预编译静态连接稳定版的  https://rna-star.googlecode.com/files/STAR_2.3.0e.Linux_x86_64_static.tgz

或github自行下载新版,解压后即有预编译的执行文件,可在x86和x64的linux上运行,mac OS等其它环境需要自行编译。(笔者用2.4.0d版本,动态和静态库版都经常出现c++的一些问题,估计是集群的环境较低导致,避免折腾,用上面那个googlecode里下载的稳定版)

 

2.建库:对genome建索引,新建文件夹/path/to/GenomeDir

     2种方式,无注释的:

/pathToStarDir/STAR --runMode genomeGenerate --genomeDir /path/to/GenomeDir --genomeFastaFiles /path/to/genome/fasta1 /path/to/genome/fasta2 --runThreadN <n> …

      有注释引导的(gff3或gtf):

/pathToStarDir/STAR --runMode genomeGenerate --genomeDir /path/to/GenomeDir --genomeFastaFiles /path/to/genome/fasta1 /path/to/genome/fasta2 --runThreadN <n> --sjdbGTFfile <FileName> --sjdbOverhang <N>…

    gff3的话,再加  --sjdbGTFtagExonParentTranscript Parent

    --sjdbOverhang <N> 是剪切点左边或右边"overhang"的长度,最好设置为RNASEQ时的MateLength - 1。
3.map:
/pathToStarDir/STAR --genomeDir /path/to/GenomeDir --readFilesIn /path/to/read1.gz [/path/to/read2.gz] --readFilesCommand zcat --runThreadN <n> --<inputParameterName> <inputparameter value(s)> …

 4.共享内存:

--genomeLoad <value>

map的时候,这个参数控制基因组读到ram里面是否作为共享的,如果共享,其它在同节点运行的同样以此genome作为ref的star任务,可以共享它,节省计算资源。若要使用,请读manual。

5.结果:

  log、sam、剪切点注释 三类文件,需要注意的是,sam里第五列 uniquely mapping reads的map质量值是255。

Manual:

https://code.google.com/p/rna-star/downloads/detail?name=STARmanual_2.3.0.1.pdf

####################

star map to gatk:

2轮map策略,第一次直接用ref的fa序列建index来map,生成的js注释合并ref的fa再建库,再map一次。 map完用picard加read groups,等。后续gatk中加上Split'N'Trim步骤,此步骤gatk3.2-2中存在bug,无法跑通,需要下载nightly builds版本或更新稳定版。

详见gatk说明页面:

--
This paper is original. All rights reserved. Welcome reproduce, please indicate the source and keep this statement!
Title:
Link:
posted @ 2014-10-03 11:27  Dicor  阅读(3302)  评论(0编辑  收藏  举报