SNPs & MAF
SNPs概念
在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。即:在不同个体的同一条染色体或同一位点的核苷酸序列中,绝大多数核苷酸序列一致而只有一个碱基不同的现象。
只涉及到单个核苷酸碱基的变化,包括碱基的置换或颠换,插入和缺失等,但后两种少见。
从理论上来看每一个SNP 位点都可以有4 种不同的变异形式,但实际上发生的只有两种,即转换和颠换,二者之比为2 :1。SNP 在CG序列上出现最为频繁,而且多是C转换为T ,原因是CG中的C 常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP 是指变异频率大于1 %的单核苷酸变异。在人类基因组中大概每1000 个碱基就有一个SNP ,人类基因组上的SNP 总量大概是3 ×106 个 。
因此,SNP成为第三代遗传标志,人体许多表型差异、对药物或疾病的易感性等等都可能与SNP有关。
现在普遍认为SNP研究是人类基因组计划走向应用的重要步骤。这主要是因为SNP将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。SNP在基因组中分布相当广泛,近来的研究表明在人类基因组中每300碱基对就出现一次。大量存在的SNP位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实验操作来看,通过SNP发现疾病相关基因突变要比通过家系来得容易;有些SNP并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。SNP在基础研究中也发挥了巨大的作用,近年来对Y染色体SNP的分析,使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。
SNP自身的特性决定了它更适合于对复杂性状与疾病的遗传解剖以及基于群体的基因识别等方面的研究:
1、 SNP数量多,分布广泛。据估计,人类基因组中每1000个核苷酸就有一个SNP,人类30亿碱基中共有300万以上的SNPs。SNP 遍布于整个人类基因组中,根据SNP在基因中的位置,可分为基因编码区SNPs(Coding-region SNPs,cSNPs)、基因周边SNPs(Perigenic SNPs,pSNPs)以及基因间SNPs(Intergenic SNPs,iSNPs)等三类。
2、 SNP适于快速、规模化筛查。组成DNA的碱基虽然有4种,但SNP一般只有两种碱基组成,所以它是一种二态的标记,即二等位基因(biallelic)。 由于SNP的二态性,非此即彼,在基因组筛选中SNPs往往只需+/-的分析,而不用分析片段的长度,这就利于发展自动化技术筛选或检测SNPs。
3、 SNP等位基因频率的容易估计。采用混和样本估算等位基因的频率是种高效快速的策略。该策略的原理是:首先选择参考样本制作标准曲线,然后将待测的混和样本与标准曲线进行比较,根据所得信号的比例确定混和样本中各种等位基因的频率。
4、 易于基因分型。SNPs 的二态性,也有利于对其进行基因分型。对SNP进行基因分型包括三方面的内容:(1)鉴别基因型所采用的化学反应,常用的技术手段包括:DNA分子杂交、引物延伸、等位基因特异的寡核苷酸连接反应、侧翼探针切割反应以及基于这些方法的变通技术;(2)完成这些化学反应所采用的模式,包括液相反应、固相支持物上进行的反应以及二者皆有的反应。(3)化学反应结束后,需要应用生物技术系统检测反应结果。
MAF(Minor Allele Frequency):最小等位基因频率