比对程序 BWA 的简单用法
本文主要非常简要地介绍一下 基因组二代测序序列比对程序 BWA 的使用:
帮助文档
文献: Fast and accurate short read alignment with Burrows-Wheeler transform
下载BWA
wget http://sourceforge.net/projects/bio-bwa/files/bwa-0.7.12.tar.bz2/download
make
cd /home/user/bwa-0.7.12/
make
设置环境变量 PATH
export PATH=$PATH:/home/user/bwa-0.7.12/
如果需要永久设置,需要把上面一行加到 ./bashrc 文件中即可。
test
这样配置基本就完成了,在任意目录下直接输入 bwa 即可看到程序的各种信息,包括版本,参数,基本用法等。
下面以水稻的NGS 序列为例,该序列为paired-end seq
建立索引
$ bwa index # 查看语法和用法
bwa index /media/文档/tigr7.fa # tigr7.fa is rice genome reference sequence
这一步会生成4个文件, 分别是 tigr7.fa.amb, tigr7.fa.ann, tigr7.fa.bwt, tigr7.fa.pac, tigr7.fa.sa 把这4个文件存在 bwa_tigr7/ 目录下, 下一步会用到。
开始比对 mapping
$ bwa mem # 查看 使用 mem 算法的语法与用法
bwa mem -t 4 /media/文档/bwa_tigr7/tigr7.fa /media/文档/mutant_1.fq /media/文档/mutant_2.fq > /media/文档/aln-pe.sam
# mem : 使用 mem 这一种算法
# -t 4 : 使用 4 个线程
# /media/文档/bwa_tigr7/tigr7.fa : 上一步建立好的索引目录文件, 用 tigr7.fa 代表了上面的 5 个文件
# /media/文档/mutant_1.fq : paired-end seq 中的一端测序文件
# /media/文档/mutant_2.fq : paired-end seq 中的另一端测序文件
# > /media/文档/aln-pe.sam : 把mapping 后的序列写入到 aln-pe.sam 文件中
这样, 就生成了 所谓的 sam 格式的文件,以便下一步用 samtools 去处理。