变异检测
一、Indel
Pindel:跟其他Call Indel的软件不大一样,Pindel用的是一个叫pattern growth的算法来检测Indel以及其他的结构变异(所以才叫P-Indel的吧),具体算法:http://gmt.genome.wustl.edu/packages/pindel/,引用次数还算可以,说明还是有一定优势的
samtools view LXZ_final.bam | sam2pindel - LXZ_pindel_output 350 tumor 0 Illumina-PairEnd
需要六个参数:
1. Input sam file or - for cin.(-表示标准输入作为input)
2. Output for pindel.
3. insert size.
4. tag
5. number of extra lines (not start with @) in the beginning of the file.
6. Which sequence platform: Illumina-PairEnd or Illumina-MatePair.
pindel -f human_g1k_v37.fasta -p LXZ_pindel_output -c ALL -T 8 -o LXZ
-p 是输入文件(上一步的输出结果)
-c 用来设定区域范围,-c ALL就表示整个基因组
-T是线程数
-o 输出结果的前缀,默认情况下会输出所有的插入缺失或者结构变异类型,分别生成以下后缀名结尾的文件:
D = deletion 缺失序列
SI = short insertion 短的插入序列
INV = inversion 转位
TD = tandem duplication 串联重复
LI = large insertion 长的插入序列,这个文件的格式跟其他文件的很不相同
BP = unassigned breakpoints 没有分到上面任意一种类型剩下来的断点
pindel2vcf这个程序把这些文件转换成我们常用的vcf文件,方便下游处理:
pindel2vcf -p LXZ_D -r human_g1k_v37.fasta -R 1000GenomesPilot-NCBI37 -d 20100517 -v LXZ_del.vcf -G
-R需要为参考序列的设定一个名称
-d还要设定日期(就是这个参考序列生成的日期),当然随便设应该也没什么问题,主要还是为了规范化
-v是生成的vcf文件的文件名。生成的vcf文件不是那么的标准,用GATK这种软件处理的时候可能不太方便,可以加上-G这个参数来让它尽可能符合GATK输入文件的要求。