基因突变相关知识
单核苷酸变异(SNV)是群体基因组中一个核苷酸的变异,是一种低频突变。 尽管与SNV相似,单核苷酸多态性(SNP)也是一个碱基被替换,但它仅限于生殖系DNA,必须在至少1%的群体中存在,是一种高频突变。
上面看到一个关键词:“低频、高频”,这也体现出二者的区别主要是在多态性上。这里的频率指的是 minor allele frequency(MAF),即次要等位基因频率。再细致一点就是一个种群中出现频率排名第二的等位基因(allele),例如三个等位基因GG、GC、CC,出现频率分别为0.50,0.48,0.02,那么MAF就是0.48。
知道了频率的定义,那么这个数值怎么界定呢?这个就依据不同文献了,有的文献定为5%,有的定为1%,即位点突变频率低于1%是低频,反之为高频。
拷贝数变异(简称CNV)是指特定DNA片段的拷贝数在不同个体的基因组中存在差异的情况。单个变体可能很短或包含数千个碱基。这些结构差异可能是通过复制、删除或其他变化产生的,并可能影响长链 DNA。这些区域可能包含也可能不包含基因。
拷贝数变异,CNV。我们基因组中一小部分拷贝数的变化可能会产生重大影响。一个有趣的例子是一种叫做淀粉酶的基因。该基因对于消化土豆或谷物等淀粉类食物很重要。科学家们在不同人群中发现了淀粉酶基因的拷贝数变异。来自历史上淀粉类食物非常重要的地方的人通常比来自淀粉类食物不太常见的背景的人拥有更多的淀粉酶基因拷贝。
两个概念:
点突变(point mutation)及单核苷酸变异(SNV, single nucleotide variant)。如果单个核苷酸的变异在群体中出现频率低于1%,则看作点突变;如果只是在病人体内检测到单个核苷酸的变异,而其在人群中出现的频率未知,则可看作SNV;单核苷酸多态性(SNP)也是一个碱基被替换,但它仅限于生殖系DNA,必须在至少1%的群体中存在。
从理论上来看,每一个SNP 位点都可以有4 种不同的变异形式(C、G、T、A)但实际上发生的只有两种,即转换(transition)(C变换为T,在其互补链上则为G变换为A)或颠换(transversion)(C变换为 A,G变换为 T,C变换为 G,A变换为 T)(图2)。因此通常所说的SNP都是二等位多态性的。也就是说,大多数情况下,C都是变成T,而变成A和G的概率很小,所以一般认为SNP是二等位的,或者是二态性。
当SNP发生在基因编码区或基因的调节区域时,它会对基因表达产生巨大的影响,从而影响基因的功能。
基因突变指基因结构的改变,包括DNA碱基对的增添、缺失或替换等。基因突变包括自然突变和人工诱变,顾名思义,在自然状态下发生的突变就是自然突变,而在人工诱导条件下产生的突变则是人工诱变。两种突变类型都会改变基因的内部结构,而结构改变的类型主要有以下六种。
1. 移码突变
信使RNA分子上的3个碱基能决定一个氨基酸。科学家把信使RNA链上决定一个氨基酸的相邻的3个碱基叫做一个“密码子”,或称为三联体密码。在一条DNA链上缺失或者插入1个、2个或者其他非3个及其整数倍的碱基,就会引起作用部位之后的密码子的组成及顺序发生变化,从而导致终止码提前或者延后,称为移码突变(frameshift mutation)。
图1 碱基的替换、增添和缺失
如图2所示,甘氨酸的密码子(GGC)之后插入了一个鸟苷酸( G),由于在蛋白质合成时每3个相邻的碱基编码1个对应的氨基酸,所以解读框段( reading frame)向左移动了1个碱基,从而引起插入 G之点开始合成和正常完全不同的氨基酸序列,导致所产生的蛋白质的活力很低甚至丧失。
图2 移码突变示例
2. 整码突变
在一条DNA链上的3个及其3的整倍数个相邻碱基间缺失或者插入1至多个密码子,引起合成的肽链减少或者增加了一至多个氨基酸,作用部位前后的氨基酸顺序不发生变化,称为整码突变(codon mutation)或密码子插入或丢失(codon insertion or deletion)
3. 终止码突变
当信使RNA中的一个终止密码成了编码氨基酸的密码,多肽链的合成不能正常终止,从而出现了延长的情况,称为终止码突变(terminator mutation)。
4. 同义突变
单个碱基的替换可能只改变了信使RNA上特定的密码子,但由于密码子具有简并性,因此并不影响氨基酸的正常编码,称为同义突变(samesense mutation)。
5. 无义突变
由于单个碱基的替换引起出现了终止密码子,从而提前终止了多肽链的合成,产生的蛋白大都失去了活性或丧失了正常的功能,称为无义突变 ( nonsense mutation)
6. 错义突变
由于DNA链上的碱基替换改变了信使RNA上特定的遗传密码,并引起合成的多肽链中的一个氨基酸被另一个氨基酸取代。称为错义突变(missense mutation)。
此外,根据基因突变对机体影响的程度,可分为下列几种情况:
1.产生遗传易感性(genetic susceptibility),即由遗传决定的,个体具有易患某种或者某类疾病的倾向性。
2.引起遗传性疾病,导致个体的生育能力降低和寿命缩短,这包括基因突变致蛋白质异常的分子病及遗传酶病。据估计,人类有50000个结构基因,正常人的基因座位处于杂合状态的可占18%,一个健康人至少带有5-6个处于杂合状态的有害突变,这些突变如在纯合状态时就会产生有害后果。
3.造成正常人体生物化学组成的遗传学差异,这样差异一般对人体并无影响。例如血清蛋白类型、ABO血型、HLA类型以及各种同工酶型。但在某种情况下也会发生严重后果。例如不同血型间输血,不同HLA型间的同种移植产生排斥反应等。
4.变异后果轻微,对机体不产生可察觉的效应。从进化观点看,这种突变称为中性突变。
5.致死突变,造成死胎、自然流产或出生后夭折等。
6.可能给个体的生育能力和生存带来一定的好处。例如,HbS突变基因杂合子比正常的HbA纯合子更能抗恶性疟疾,有利于个体生存。
综上,基因突变的类型多种多样,对人类有害亦有利,那么我们如何利用基因突变去造福于人类呢?如果人为地、有目的性地在已知DNA序列中插入、缺失或者取代一定的核苷酸片段,那么则可以有针对性地去改变DNA序列中的碱基次序,如此可用来阐明基因的调控机理,也可以用来研究蛋白质结构与功能间的关系,这也就是常说的定点突变技术。此外,还诞生了其他诸如随机突变、多位点突变等各类突变技术。总之,突变技术近年来得到大力发展,并应用到各个领域,了解了基因突变的类型,人们可以更清晰地去按自己的意愿改造基因或蛋白的产物,最后取得改造后的产物加以有效利用。
MAF
以下内容参考:https://cloud.tencent.com/developer/article/1556023
Mutation Annotation Format, 简称MAF, 是由TCGA制定的一种文件格式,用来存储突变注释信息。在TCGA中,对于突变数据有以下四种类型:
- Annotated Somatic Mutation, 体细胞突变的注释文件,格式为VCF, 采用VEP软件进行注释,文件后缀为vep.vcf.gz
- Raw Simple Somatic Mutation, 体细胞突变的原始文件,格式为VCF, 文件后缀为vcf.gz
- Aggregated Somatic Mutation, protected的突变注释文件,需要账号和权限才可以下载,格式为MAF, 文件后缀为maf.gz
- Masked Somatic Mutation, open access的突变注释文件,免费下载的,格式为MAF, 文件后缀为maf.gz
在TCGA中,VCF通常用于记录单个样本的体细胞突变相关结果,MAF用于整合所有样本的体细胞突变注释结果,所以称MAF格式为project-level, 根据数据的开放性,又分为protected和open access, 其中open access就是我们可以直接下载得到的MAF文件, 以乳腺癌为例,在TCGA中提供了4个MAF文件
对应4个不同的体细胞突变calling软件,每个文件中包含了1044个样本的体细胞SNV注释结果。
MAF和VCF类似,也是一个纯文本的格式,由\t
分隔的许多列构成,从GDC下载的MAF文件的截图如下
#
开头的为注释行,其他部分为正文,每一列有一个固定的表头, 完整的MAF共有100多列,在实际处理中,我们可能没有这么多列的信息,常用的几列解释如下
- column1, Hugo_Symbol, 由HUGO提供的gene symbol, 表示SNV所在的基因名称
- column 2,Entrez_Gene_id, SNV所在基因的entrez id, 如果没有对应的基因,则用0表示
- column 4,NCBI_Build, snv calling时使用的参考基因组版本
- column5,Chromsome, SNV所在的染色体
- column6,Start_Position, SNV在染色体上的起始位置
- column7,End_Position,SNV在染色体上的终止位置
- column9,Variant_Classification, SNV位点的分类,Missense_Mutation,Nonsense_Mutation等类别,分类的依据为SNV对翻译的影响.
- column10,Variant_Type, SNV位点的类型,比如SNP, INS,DEl等类型
- column11,Reference_Allel, 参考基因组上的allel
- column12,Tumor_Seq_Allel1, 肿瘤样本中该位点对应的主等位基因
- column13,Tumor_Seq_Allel2,肿瘤样本中该位点对应的次等位基因
- column16,Tumor_Sample_Barcode, 肿瘤样本的barcode
- column17,Tumor_Normal_Barcode,配对的正常样本的barcode
每一列的详细含义见如下链接
MAF是专门针对human定义的一种文件格式,通过一个文件就可以包含所有样本的SNV和对应的注释信息,对于下游分析而言,非常的方便。在实际使用中, 对于VCF文件,可以通过vcf2maf将其转换为MAF格式,在后续文章中会具体介绍该软件的用法。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了