STAR软件的学习

下载地址与参考文档

https://github.com/alexdobin/STAR/archive/2.5.3a.tar.gz
wget https://github.com/alexdobin/STAR/archive/2.5.3a.tar.gz
[https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf]（https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf)

建立索引

建立索引时需要先建立一个存放索引的文件夹

mkdir star_index && cd star_index
#下载需要建立索引的基因组文件
wget xxx.fa    #自己选择基因组
wget xxx.gtf    #基因组对应的gtf文件
#注意--sjdbOverhang 参数为reads的长度-1
#模式选择为 genomeGenerate 
STAR 
--runMode genomeGenerate 
--genomeDir star_index/ 
--genomeFastaFiles xxx.fa 
--sjdbGTFfile xxx.gtf
--sjdbOverhang 199

比对

#设置输出文件的前缀 --outFileNamePrefix
#设置clean reads 文件 fq1和fq2间用空格
#比对默认输出是sam格式，如果需要bam需要设置--outSAMtype参数
#当输入的reads是fq.gz格式时需要使用--readFilesCommand命令来解压
STAR 
--runThreadN 20 
--genomeDir star_index/ 
--readFilesCommand zcat 
--readFilesIn fq1 fq2

参数说明

输出unsorted or sorted bam file --outSAMtype BAM Unsorted 实际上就是-name 的sort，下游可以直接接HTSeq
--outSAMtype BAM SortedByCoordinate
--outSAMtype BAM Unsorted SortedByCoordinate 两者都输出
--readFilesCommand 针对fastq.gz文件增加 --readFilesCommand gunzip -c 参数/
--readFilesCommand zcat参数
针对bzip2文件使用 --readFilesCommand bunzip2 -c参数

# 单独指定注释文件，而不用在构建的时候使用
 --sjdbGTFfile /path/to/ann.gtf 
--sjdbFileChrStartEnd /path/to/sj.tab 
# ENCODE参数
 # 减少伪junction的几率 --outFilterType BySJout 
# 最多允许一个reads被匹配到多少个地方 
--outFilterMultimapNmax 20 # 在未有注释的junction区域，最低允许突出多少个bp的单链序列 
--alignSJoverhangMin 8 # 在有注释的junction区域，最低允许突出多少个bp的单链序列 
--alignSJDBoverhangMin 1 # 过滤掉每个paired read mismatch数目超过N的数据，999代表着忽略这个过滤 
--outFilterMismatchNmax 999 # 相对paired read长度可以允许的mismatch数目，如果read长度为100，数值设定为0.04，则会过滤掉100*2*0.04=8个以上的数据 
--outFilterMismatchNoverReadLmax 0.04 # 最小的intro长度 
--alignIntronMin 20 # 最大的intro长度 
--alignIntronMax 1000000 # maximum genomic distance between mates，翻译不出来，自行理解 
--alignMatesGapMax 1000000

输出格式

暂略

posted @ 2019-05-24 13:53 raisok 阅读(3010) 评论(0) 编辑收藏举报

刷新页面返回顶部