WGS外显子数据基本概念
对于一个生物知识还停留在初中和高中时代的人来说,理解基因组数据确实有点困难,经过几天的探索,初步对这个概念有了一些理解。下面逐一解释。
人类有显性基因和隐性基因,可是人类基因组并没有测序怎么办
人类基因组99.9%的序列都是一样的,只有少数不一样,这一部分需要对大量人群进行统计,因此诞生了数据库dbSNP,检测核苷酸多样性,最低的多态性应该超过1%,否则就会被认为是mutant[1]。下图[2]是一个比较典型的例子,为什么每一个位点只有两种碱基,因为大部分的基因只有显性和隐性两种可能。
怎么检测癌症中的突变情况
CNV(copy number variation)和 BAF(B allele frequency)是检测癌症基因组时常用的两个概念,前者是数量的变化,后者是类型的比例,CNV好理解,指的是某一片段检测到的数量,后者是指各个allele的类型的比例,这个就是根据上文所说的两种碱基的比例来确定的。
一些基本的数据存储格式
VCF格式
这个格式本质还是一个表格,但是加上了一些注释信息,fix是对变异信息的总结,gt(genotype)是各个样本单独的信息[3]
参考文献:
[1] dbSNP: the NCBI database of genetic variation
[2] Analysis of Somatic Alterations in Cancer Genome: From SNP Arrays to Next Generation Sequencing
[3] https://grunwaldlab.github.io/Population_Genetics_in_R/reading_vcf.html
[4] https://zhuanlan.zhihu.com/p/31529899