VCF文件格式
VCF是用于描述SNP,INDEL和SV结果的文件,下面所记录的是以GATK软件结果的VCF文件,与SAMtools的结果有点不同
VCF文件可以分为两部分看,最上面#号注释的的部分是对一些参数的解释,文件格式信息可以从这些注释中获得,而下面没#号注释的部分则是各个参数对应的具体的值。
一般先关注以下几列信息,从左到右为:
#CHROM POS ID REF ALT QUAL FILTER INFO
1 17538 rs200046632 C A 99.60 PASS
1 54421 rs146477069 A G 88.60 PASS
1 55299 rs10399749 C T 867.60 PASS
1 61442 rs74970982 A G 593.03 PASS
1 63268 rs75478250 T C 357.60 PASS
1 64310 rs367969174 A G 59.60 PASS
CHROM :染色体编号,可以是1,2,3...或chr1,chr2,...,与使用的参考基因组fasta相关
POS:参考基因组上variant碱基的位置,如果是INDEL,则该位置是INDEL第一个碱基的位置
ID:variant的ID,如果在dbSNP中有SNP的id,则显示其id,不然以点表示novel variant。
REF:参考序列上该位点对应的碱基
ALT:与参考序列上的碱基相比发生了突变的碱基,即Variant的碱基
QUAL:Phred格式(Phred_scaled)的质量值,表示该位点存在Variant的可能性,值越高表示突变可能性越大
FILTER:理想情况下,QUAL这个值应该是用所有的错误模型算出来的,这个值就可以代表正确的变异位点了,但是事实是做不到的。因此,还需要对原始变异位点做进一步的过滤。无论你用什么方法对变异位点进行过滤,过滤完了之后,在FILTER一栏都会留下过滤记录,如果是通过了过滤标准,那么这些通过标准的好的变异位点的FILTER一栏就会注释一个PASS,如果没有通过过滤,就会在FILTER这一栏提示除了PASS的其他信息(如:LowQual)。如果这一栏是一个“.”的话,就说明没有进行过任何过滤。
以上几列是最先关注的,接下来先跳过INFO列,还有两列也是蛮重要的FORMAT和最后一列(最后一列一般为样品名),两者和一起则为基因型信息,前者为格式,后者为对应的数据,如:
GT:AD:DP:GQ:PL 0/1:6,5:11:99:138,0,153
GT:表示样品的基因型,对于二倍体生物,GT值表示的是样本在这个位点所携带的两个等位基因。0表示跟REF一样,1表示跟ALT一样,2表示有第二个ALT;当只有一个ALT等位基因时:0/0表示纯合子并跟REF一致;0/1表示杂合子,有两个allele,一个是ALT,另一个是REF;1/1表示纯合子并都为ALT
AD:两个以逗号分隔的值,分别表示覆盖到REF和ALT碱基的reads数,也就是REF和ALT对应的测序深度
DP:表示覆盖在这个位点的总reads数,也就是这个位点的测序深度(并不是指具体有多少个reads数量,而是大概满足一定质量值要求的reads数)
PL:三个逗号分隔的值,分别对应该位点的三个基因型0/0,0/1,1/1的没经过先验的标准化Phred-scaled似然值(L),L=-10lgP,P为支持该基因型的概率,3个概率总和为1;因此,L这个值越小,支持概率就越大,也就是说是这个基因型的可能性越大。
GQ:表示基因型的质量值,Phred格式(Phred_scaled)的质量值,Phred值 = -10 * log (1-p) p为基因型存在的概率,表示该位点基因型存在的可能性。
最后则是INFO列所包含的信息:
AC=1;AF=0.500;AN=2;BaseQRankSum=0.748;ClippingRankSum=0.000;DB;DP=34;ExcessHet=3.0103;FS=3.424;MLEAC=1;MLEAF=0.500;MQ=31.07;MQRankSum=-0.087;QD=11.87;ReadPosRankSum=-1.349;SOR=2.636
AC=2;AF=1.00;AN=2;DB;DP=14;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=31.60;QD=29.36;SOR=5.421
AC:表示该Allele的数目,Allele数目为1表示双倍体的样本在该位点只有1个等位基因发生了突变
AF:表示Allele的频率,Allele频率为0.5表示双倍体的样本在该位点只有50%的等位基因发生了突变
AN:表示Allele的总数目
即:对于1个diploid sample而言:则基因型 0/1 表示sample为杂合子,Allele数为1(双倍体的sample在该位点只有1个等位基因发生了突变),Allele的频率为0.5(双倍体的 sample在该位点只有50%的等位基因发生了突变),总的Allele为2; 基因型 1/1 则表示sample为纯合的,Allele数为2,Allele的频率为1,总的Allele为2。
DP:样本在这个位置的reads覆盖度,是一些reads被过滤掉后的覆盖度(跟上面提到的DP类似)
FS:使用Fisher's精确检验来检测strand bias而得到的Fhred格式的p值,值越小越好
MQ:表示覆盖序列质量的均方值RMS Mapping Quality
BaseQRankSum:Z-score from Wilcoxon rank sum test of Alt Vs. Ref base qualities
ClippingRankSum:Z-score From Wilcoxon rank sum test of Alt vs. Ref number of hard clipped bases
ExcessHet:Phred-scaled p-value for exact test of excess heterozygosity
MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed
MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT allele, in the same order as listed
MQRankSum:Z-score From Wilcoxon rank sum test of Alt vs. Ref read mapping qualities
QD:Variant Confidence/Quality by Depth
ReadPosRankSum:Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias
SOR:Symmetric Odds Ratio of 2×2 contingency table to detect strand bias