深入理解snp-calling流程——转载

------------恢复内容开始------------

GATK4流程

准备配套数据

明确参考基因组版本!!!b36/b37/hg18/hg19/hg38,记住b37和hg19并不是完全一样的,有些微差别。

1、下载参考基因组

下载地址很多,常用的就是NCBI,ensembl和UCSC,这里推荐用这个脚本下载(下载源为UCSC):

 1 # 一个个地下载hg19的染色体
 2 for i in $(seq 1 22) X Y M;
 3 do
 4     echo $i;
 5     wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;
 6 done
 7 
 8 gunzip *.gz
 9 
10 # 用cat按照染色体的顺序拼接起来,因为GATK后面的一些步骤对染色体顺序要求非常变态,如果下载整个hg19,很难保证染色体顺序是1-22,X,Y,M
11 for i in $(seq 1 22) X Y M;
12 do
13     cat chr${i}.fa >> hg19.fasta;
14 done
15 
16 rm -rf chr*.fasta

BWA: Map to Reference

1、建立参考序列索引

$ bwa index -a bwtsw ref.fa

参数-a用于指定建立索引的算法:

  • bwtsw 适用于>10M
  • is 适用于参考序列<2G(默认-a is)

可以不指定-a参数,bwa index会根据参考基因组大小来自动选择合适的索引方法

2、序列比对

 

$ bwa mem ref.fa sample_1.fq sample_2.fq -R '@RG\tID:sample\tLB:sample\tSM:sample\tPL:ILLUMINA' \
    2>sample_map.log | samtools sort -@ 20 -O bam -o sample.sorted.bam 1>sample_sort.log 2>&1

 

 

 

------------恢复内容结束------------

posted @ 2022-01-27 16:02  Riven_zrw  阅读(314)  评论(0编辑  收藏  举报