深入理解snp-calling流程——转载
------------恢复内容开始------------
GATK4流程
准备配套数据
明确参考基因组版本!!!b36/b37/hg18/hg19/hg38,记住b37和hg19并不是完全一样的,有些微差别。
1、下载参考基因组
下载地址很多,常用的就是NCBI,ensembl和UCSC,这里推荐用这个脚本下载(下载源为UCSC):
1 # 一个个地下载hg19的染色体 2 for i in $(seq 1 22) X Y M; 3 do 4 echo $i; 5 wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz; 6 done 7 8 gunzip *.gz 9 10 # 用cat按照染色体的顺序拼接起来,因为GATK后面的一些步骤对染色体顺序要求非常变态,如果下载整个hg19,很难保证染色体顺序是1-22,X,Y,M 11 for i in $(seq 1 22) X Y M; 12 do 13 cat chr${i}.fa >> hg19.fasta; 14 done 15 16 rm -rf chr*.fasta
BWA: Map to Reference
1、建立参考序列索引
$ bwa index -a bwtsw ref.fa
参数-a用于指定建立索引的算法:
- bwtsw 适用于>10M
- is 适用于参考序列<2G(默认-a is)
可以不指定-a参数,bwa index会根据参考基因组大小来自动选择合适的索引方法
2、序列比对
$ bwa mem ref.fa sample_1.fq sample_2.fq -R '@RG\tID:sample\tLB:sample\tSM:sample\tPL:ILLUMINA' \ 2>sample_map.log | samtools sort -@ 20 -O bam -o sample.sorted.bam 1>sample_sort.log 2>&1
------------恢复内容结束------------