基因突变基本知识
基因、染色体、蛋白质、DNA,RNA 之间的关系是什么?
赛福基因公开课今天正式开讲。第一课我们来对基因检测进行基本的介绍。
今天我主要从以下两个方面介绍一下基因检测的基础知识,一是基因,包括细胞、染色体、DNA、基因的简单介绍。另一是基因突变,包括基因突变的概念介绍,基因突变的来源以及基因突变的类型及对蛋白的影响等。
在精准医疗中基因检测这个领域,有一个很著名的事件——安吉丽娜朱莉事件。
安吉丽娜朱莉一家有肿瘤的家族史,她的母亲、祖母和曾祖母,阿姨,此前都因癌症去世。
2013年,安吉丽娜·朱莉进行了基因测序,发现了自己是 BRCA1 突变基因携带者,患上乳腺癌和卵巢癌的几率分别是80%和50%,所以毅然接受预防性乳腺切除。
现在精准医疗中的基因检测技术主要的应用领域有4大方面:
第一是产前筛查,通过抽取孕妇的外周血液就可以进行胎儿染色体类疾病的产前诊断,目前应用最好的比如:21三体综合征,18三体综合征的产前筛查。由于孕妇的外周血中含有胎儿的游离DNA,就克服了传统有创产前筛查取样的问题。
第二是肿瘤:对肿瘤患者进行基因检测,找到其针对该患者的致病基因突变信息,从而辅助其选择正确的靶向治疗药物和化疗药物,实现肿瘤患者的精准个性化治疗。
第三是遗传病领域,更准确的说是单基因遗传病领域。目前已有超过4000种单基因遗传病有明确的致病基因,所以通过基因检测的方式可以辅助医生明确疾病诊断,辅助选择合适的治疗方式,并评估患者的预后情况。
第四是现在很流行的以预防为主的针对健康人的基因检测。通过分析人体内携带的基因碱基信息,评估个体的健康状况,最重要的是预测未来患某种疾病的几率,从而达到提前预防,或体检时重点针对的疾病类型的目的。达到早预防、早发现、早治疗的目的。
我们一直在说表型和疾病。事实上,疾病就是人体表现出表型的一种,即每一个人表现出的样子,这些表型中有些不是疾病,只是体现出人体的多样性,比如肤色、发色、智商、身高和运动能力等,这些差异不是疾病。但是有一些表型就是疾病,比如说智力障碍、运动障碍等,这些严重地影响到正常生活,就称之为疾病。我们可以说每个个体表现出的样子几乎都和遗传相关,疾病也不例外。
同时凡事都有两面性,无论疾病还是其他表型都受环境和遗传因素两方面影响,环境因素包括营养因素、理化因素、感染外伤等,遗传因素包括染色体异常、单基因缺陷等。但是疾病与环境和遗传的相关程度不同,有些疾病受遗传因素影响的比较多,有些受环境因素影响比较多。
那么所谓的遗传因素是什么呢?遗传因素的本质是什么呢?
这就涉及到我们今天讲的第一个概念,即基因。
谈基因,首先要从人的细胞说起,细胞是生命的基本单位,遗传物质就蕴藏在细胞核和线粒体中。
人体内约有40万亿--60万亿个细胞,细胞的平均直径在10--20微米之间。细胞由多个部分组成,每个部分行使不同的功能。其中被称为细胞器的那些部分,具有特殊的结构以确保在细胞中行使一定的任务。细胞器老师们可能还有一些印象:比如内质网、高尔基体、溶酶体等。
那么我们所说的遗传物质位于何处呢?一是细胞核,人的细胞中都有一个细胞核,除了成熟的红细胞和血小板(携带血红蛋白;体积小方便流动等),这个也是人体基因组中绝大部分遗传物质的储存空间。二是线粒体,人体中的很小部分遗传物质位于这里。
那么我们再来看看细胞核中有什么东东?这就涉及到另一个概念,即染色体。
人类的细胞核中有23对,46条染色体。包括(1-22号)22对常染色体,和1对性染色体,这对性染色体决定了人的性别,XX型为女性,XY型为男性。其中23条来自母亲,23条来自父亲。
染色体展开即可看到DNA的双链结构,染色体就是由DNA分子和组蛋白组成的。
我们来看一下DNA的平面结构,2 条链,它的基本组成单位是A T C G四种碱基,其中A和T互补配对,C和G互补配对,这种配对规则是不会改变的。
那么基因是什么呢?基因是一段具有遗传效应的DNA分子片段,它排布在DNA双链上。那么既然它是DNA的一部分,故其基本组成单位仍是A T C G四种碱基。那么我们所说的基因序列,其实就是由这四种碱基经过多种排列组合组成的。
人类基因组计划被誉为生命科学的"登月计划",它于1990年开始启动,并于2003年完成,比原定的2005年完成早了2年。人类基因组计划是一个大的国际合作项目,是为了测定人类基因组的全部序列并发现组成基因组的全部基因信息。该项目由美国国立卫生研究院和美国能源部进行主要协调,其他的参与者还包括美国的部分大学,以及英国、法国、德国、日本和中国。
那么人类基因组计划主要实现了什么呢?在2003年4月的时候,研究人员宣布人类基因组计划完成了一个基本上是完整人类基因组的高质量序列,这项研究也搞清了人体内许多基因位于整个基因组的位置信息,以及它们的结构和组成信息。
那么现在我们所说的人体基因组是由多少基因组成的呢?还是2大部分,一是编码蛋白的位于细胞核中的22000多个基因,以及线粒体基因组中的37个基因。
我们以1号染色体为例,DNA的计量单位是bp,1号染色体的基因组大小的248.96Mb,编码的蛋白质有11046种,位于1号染色体上的基因有5078个(包括编码蛋白基因及非编码蛋白基因)。其实总体看下来,基因在染色体上的分布是不均匀的,1号染色体上的基因数目最多。我们再来看看线粒体的基因组,一共有37个基因,其中2个编码rRNA, 22个编码tRNA, 13个编码多肽。
对这一小部分做一个总结:A T C G四种碱基经多种排列组合组成了基因,基因位于DNA分子上,DNA和组蛋白组成染色体,染色体位于细胞核中,细胞核位于细胞中,细胞是人体的基本组成单位。还有另一个小分支即是,细胞中的另一个细胞器,线粒体中的DNA分子,构成了整个人类基因组非常小的一部分。
好,介绍完基因的基本概念,我们再来看看我们真正关心的基因变异是怎么回事。
基因是如何行使功能的呢?是通过指挥蛋白质的合成来控制我们的生命现象。基因表达是指细胞在生命过程中,把存储在DNA序列中的遗传信息经过转录和翻译,转变成具有生物活性的蛋白质分子。人体除水分外,蛋白质是最主要组成部分,也是一切生命的物质基础。
那么我们现在来看看基因和蛋白之间的对应关系:比如现在有一条基因序列,…GCA AGA GAT TTA ACT…,其中每3个相连的核苷酸称为密码子,分别编码一个氨基酸,比如GCA编码丙氨酸,AGA编码精氨酸…,蛋白质其实就是由这一堆氨基酸组成的。这也就将基因序列和蛋白的关系对应了起来。
我们以这张幻灯片为例,正常人的序列如图所示,为GCA AGA GAT TTA ACT,如果编码精氨酸的密码子AGA,G碱基发生突变,变成了A碱基,那么密码子就会变为AAA,编码赖氨酸,这样就导致了氨基酸的序列发生了变化,进而可能会影响该基因编码的蛋白结构,导致其不能正常行使功能。
如果编码蛋白程序不正常了,那会影响到正常生命活动,就构成了遗传病或者肿瘤。我们可以说:遗传病就是遗存物质发生了破坏,正常基因功能改变而引起的疾病。
那么突变是如何发生的,或是突变的来自哪里呢?主要是3个层面,胚系(生殖细胞)突变,体细胞突变,新发突变。
突变遗传自父母并存在于整个人的生命中,几乎存在于身体的每个细胞,这些突变也称为胚系突变,因为它们来自父母的卵子或精子,也称为生殖细胞。
当卵子和精子结合时,合二为一的受精卵细胞接受来自双亲的DNA。 如果这个DNA有一个突变,孩子从受精卵发育开始,他/她的每个细胞将带有这个突变。
这个也是我们进行遗传病基因检测时遇到比较多的一个类型。比如现在这个表中所列的我们公司的一个检测结果,患者临床表型与脊肌萎缩高度吻合,我们进行全外显子组测序时就找到了这个致病的基因突变信息,为位于8号染色体上的ASAH1基因发生了纯合突变所致,由该基因导致的基因突变与患者的临床表型高度相符,我们在进行家系样本分析的时候,就发现了该患者的父母均是这个致病基因的杂合突变携带者。即该患者的纯合基因突变来自于双亲。
获得性(或体细胞)突变发生在一个人的某个时间并且仅存在于某些细胞中,而不存在于体内的每个细胞中。
这些变化可能是由环境因素造成的比如来自太阳的紫外线辐射,或者DNA在细胞分裂期间自己复制时发生错误。
获得体细胞突变(精子和卵细胞以外的细胞)不能遗传给下一代。
那么这种常见的突变类型在哪一类疾病中比较常见呢,就是肿瘤。
这也是为什么肿瘤患者做基因检测,样本必须要求是肿瘤组织的原因。因为肿瘤的发生多是体细胞突变的结果,肿瘤组织中的基因信息与其他组织中的不同。
表中列出了肿瘤组织取样的一些样本要求和每个分别对应的保存及运输条件。
那么这就有一个问题了,如果肿瘤患者没有做过手术,或者肿瘤组织样本不易获取,肿瘤患者如何进行基因检测呢?这就涉及到了现在比较流行的一个概念,及液态活检。取的样本就是人体的外周血,这个是为什么呢?因为人体的外周血中就带有来自肿瘤基因组的DNA片段,我们称为循环肿瘤DNA(ctDNA)。它包含肿瘤组织的全部基因信息,就解决了肿瘤组织样本取样难的问题。
表中列出了如果做液态活检所要求的血液样本信息。
新发突变的遗传变异可以来自父母也可以是体细胞突变。
在某些情况下,突变发生在人的卵细胞或精细胞中,但不存在于任何其他细胞中。
在其他情况下,在卵细胞和精细胞结合后不久,在受精卵中发生突变。(通常不可能准确地知道何时发生了新发突变。)当受精卵分裂,每个生长的胚胎中的细胞都会有突变。
新发突变可以解释部分受影响的患遗传病孩子在身体的每个细胞中都有突变,但是父母却没有突变,而且没有家族史。
这是我们分析过的另一个实例,该患儿检测到可以解释所患表型的SCN1A的杂合突变信息,但是检测其双亲样本时,并没有发现这个基因突变的携带情况,即双亲样本在该位点均和正常人相同。这种情况下,我们即可定义该基因突变为新发突变。
以上简单介绍了基因突变的来源,现在我们简单介绍一下突变的类型。
它们可以影响少到单个DNA碱基多到包含多个基因的大片段染色体。
我们测一个全外显子组数据,检测到的变异数目大概在50000个左右,那么这些变异都会影响我们的健康吗?不是的,只有很少的一部分的变异导致遗传疾病,大多数对健康没有影响。例如,一些变异改变了基因DNA序列,但不改变由该基因产生的蛋白质的功能。
评判一个基因变异是否会对人体造成损害的基础一步,就是看基因变异是否会对其编码的蛋白产生影响。
我们先来看看碱基水平的变异类型,主要分为2大类,一是单核苷酸变异( Single nucleotide variation ),简称为SNV;一是插入缺失( Insertion deletion ),简称InDel。
单核苷酸变异即是基因组中的某个位置的单个碱基发生了变异。根据其对蛋白功能的影响,主要分为以下几种类型:
第一种:错义突变。指编码某种氨基酸的密码子经碱基替换以后,变成编码另一种氨基酸的密码子,从而使多肽链的氨基酸种类和序列发生改变。
我们以这个图为例,GCA AGA GAT TTA ACT,编码精氨酸的密码子AGA,G碱基发生突变,变成了A碱基,那么密码子就会变为AAA,变成了编码赖氨酸,导致了蛋白质的序列发生了改变。这种类型的突变称为错义突变。错义突变的结果通常能使多肽链丧失原有功能,许多蛋白质的异常就是由错义突变引起的。
第二种:同义突变。指碱基被替换之后,产生了新的密码子,但由于生物的遗传密码子存在简并现象,新旧密码子仍是同义密码子,所编码的氨基酸种类保持不变,因此同义突变并不产生突变效应。这里涉及到一个概念,简并密码子,指一个氨基酸由一个以上的三联体密码编码的现象叫做密码子的简并性。其中的密码就叫做简并密码子。比如编码精氨酸的密码子有:CGU; CGC; CGA; CGG; AGA; AGG共6种。
我们以这个图为例,GCA AGA GAT TTA ACT,编码精氨酸的密码子AGA,A碱基发生突变,变成了G碱基,那么密码子编码的氨基酸其实还是精氨酸,并没有造成蛋白质序列的改变,这种情况下也就不会对蛋白的功能造成影响。这种突变类型称为同义突变。
第三种:无义突变。指由于某个碱基的改变使代表某种氨基酸的密码子突变为终止密码子,从而使肽链合成提前终止。这类突变导致蛋白质缩短,其可能影响蛋白功能或完全破坏蛋白功能。
这里涉及到另一个概念,终止密码子,蛋白质翻译过程中终止肽链合成的信使核糖核酸(mRNA)的三联体碱基序列: UAG,UAA,UGA是终止密码子。
我们以这个图为例,GCA AGA GAT TTA ACT,编码天冬酰胺的密码子TTA,T碱基发生突变,变成了A碱基,那么对应的密码子编码的氨基酸就由天冬酰胺,变成了终止密码子TAA,导致其之后的密码子不能再继续编码氨基酸,使蛋白质的序列缩短。这种情况通常是比较严重的,大多数情况下都会影响蛋白功能或完全破坏蛋白功能。
插入:通过插入一段DNA序列,改变了基因的解读方式。结果,由该基因产生的蛋白质可能完全不能正常运行。
如图所示,在AGA 密码子的AG之间插入了一个A碱基,这种情况下,在GCA之后的所有正常氨基酸的序列都被破坏了,由原有的丙氨酸-精氨酸-天冬氨酸-天冬酰胺-半胱氨酸…变成了丙氨酸-赖氨酸-精氨酸-苯丙氨酸-天冬酰胺…
这种情况对于蛋白质功能的影响也是巨大的。
缺失是指缺少一段DNA,减少了DNA碱基的数目。缺失范围可以从一个或几个碱基对,到整个基因或几个相邻的基因。
如图所示,若发生AGAG四个碱基的缺失,由正常的GCA AGA GAT TTA ACT…序列变成GCA ATT AAC T…,那么编码的氨基酸序列就会由原有的丙氨酸-精氨酸-天冬氨酸-天冬酰胺-半胱氨酸…变成了丙氨酸-异亮氨酸,由于TAA是一个终止密码子,就导致了肽链合成的提前终止。
被删除的DNA可能改变编码蛋白质的功能。
动态突变:由DNA分子中某些短串联重复序列,尤其是基因编码序列或侧翼序列的三核苷酸重复扩增所引起。且重复次数会随着世代交替的传递而呈现逐代递增的累加突变效应。
如脊髓小脑性共济失调,这是由动态突变导致的最常见的一类疾病。SCA1患者中的ATXN1基因,其正常人对应的CAG三核苷酸重复是在6-39次,而患者的该三核苷酸重复次数则达到了41-81次。
这里边比较严重的是SCA7型,正常人对应的CAG三核苷酸重复是在7-35次,而部分患者的该三核苷酸重复次数则高达200次。
这三个核苷酸的具体重复次数还和疾病的外显率相关:
SCA17: 41 to 48 CAG/CAA repeats(外显率50%);若大于等于49次,则会造成完全外显。
外显率:指在一定环境条件下,群体中某一基因型(通常在杂合状态下)个体表现出相应表型的百分率。外显率等于100%时称为完全外显,低于100%时则为不完全外显或外显不全。
移码突变:在正常的DNA分子中,碱基缺失或增加非3的倍数,造成这位置之后的一系列编码发生移位错误的改变,这种现象称移码突变。所得蛋白质通常是无功能的。插入,缺失和重复都可以是移码突变。
这种类型的突变发生在DNA碱基的插入或缺失时改变基因的阅读框。阅读框由多个含3个碱基的密码子组成,每个密码子编码一个氨基酸。移码突变使密码子编码错位,改变了编码的氨基酸类别。
第二种大的变异类型为染色体水平的变异,包括两种,一种是染色体数目异常,一种是染色体结构异常。
人类细胞通常含有23对,46条染色体。染色体数量的变化可能导致身体生长,发育上存在问题。在细胞分裂过程中,染色体分离障碍,可导致染色体数目异常,包括整倍体和非整倍体两类。
我们先来看一下染色体数目异常中的整倍性改变,如果染色体的数目变化是单倍体(n23)的整倍数,成倍的增加或减少,称为整倍性改变。比如三倍体:就是2*23+1*23=69条染色体。
非整倍体是染色体数不是染色体组的整倍数。
染色体数目异常按照染色体的类别分成了常染色体数目异常和性染色体数目异常。先看第一大类,常染色体数目异常。
比如唐氏综合征是由三体型引起病症的一个典型案例。唐氏综合征患者通常有三条21号染色体,每个细胞总共有47条染色体。
其他的常见三体综合征还有18三体综合征、13三体综合征等。
第二大类是性染色体数目异常,就是指决定性别的女性XX染色体和男性XY染色体的数目异常导致。
比如Turner综合征(也称为女性先天性性腺发育不良或先天性卵巢发育不良综合征),患该病的女性患者其中的一条X染色体缺失,每个细胞总共45条染色体。
Klinefelter综合征:也称为先天性睾丸发育不全,核型为47,XXY,故本病也称为XXY综合征。
除染色体数目发生异常之外,还有一种就是染色体结构发生了畸变。主要包括缺失、重复、倒位、易位、环装染色体、等臂染色体、插入等。
1.缺失 染色体中某一片段的缺失 例如,猫叫综合征是人的第5号染色体部分缺失引起的遗传病,因为患病儿童哭声轻,音调高,很像猫叫而得名。猫叫综合征患者的两眼距离较远,耳位低下,生长发育迟缓,而且存在严重的智力障碍。
2.重复 染色体增加了某一段,如图所示。
3.倒位 染色体某一片段的位置颠倒了180度,造成染色体内的重新排列, 如女性习惯性流产的一种致病原因就是第9号染色体长臂倒置所致。
4.易位 染色体的某一片段移接到另一条非同源染色体上或同一条染色体上的不同区域 。如惯性粒白血病(第14号与第22号染色体部分易位。
5、环状染色体:一条染色体的长短臂同时发生了断裂,含有着丝粒的两断端发生重接,即形成环状染色体。
6、等臂染色体:染色体的两臂在基因的种类、数量和排列方面为对称的相同的染色体。
7、插入:一条染色体的片段插入到另一条染色体中的现象。
以上是关于基因变异的一些简介。那么我们所说的基因检测的实质就是先找出和正常人不同的基因变异,进而再评估这些基因变异产生的影响,定位到和表型相关的基因变异信息的一个过程。
以上就是基因检测中的的一些基础知识,包括细胞、染色体、DNA、基因的简单介绍。基因突变,包括基因突变的概念介绍,基因突变的来源以及基因突变的类型及对蛋白的影响等。
下次课程中会介绍神经系统遗传病基因检测的一些简单知识,包括OMIM数据库的简单介绍,单基因遗传病的遗传方式以及神经系统遗传病的基因检测技术选择。
感谢各位老师在百忙之中抽出时间收听基因检测基础知识的简单介绍。下面我们进入提问环节,各位老师有任何基因相关问题,都欢迎您在群内提出,我们共同进行交流。
现场问答环节
1. 您刚才所说的人体内编码蛋白的基因的22000多个,还有37个线粒体基因。那如果我们平时通常选用的基因测序手段,会检测到这些线粒体基因组吗?
答:如果没有特别说明的情况下,老师们选择的基因测序手段通常都会是全外显子组测序或基因panel的形式,这两种检测手段是检测不到线粒体基因突变的。所以当有些疾病比如Leber视神经萎缩,肌阵挛性癫痫和粗糙纤维病等,致病基因很明确就是由线粒体基因突变导致。这种情况下我们就选择线粒体基因测序就好了。下一次课程中我们会讲一下神经系统疾病基因检测的技术选择,老师们可以关注一下。
2. 第四张图片中的家系图如何看?
方形代表男性,圆形代表女性,以黑色填充的代表患者,图形中带有斜线的表示这个人已经去世。图形中有圆点的代表是突变基因携带者。
3. 你们对应报告中的那个检测结果中的所列选项都是什么意思?
基因—代表的是我们所检测到的与患者表型相关的致病基因,染色体位置Chr2:166051890,代表该基因的突变位点位于2号染色体上的第166051890位,基因突变信息NM_006920是对应的转录本编号,exon6:c.793G>A:p.Gly265Arg:表示该突变位于SCN1A基因的第6号外显子处,该基因编码蛋白的序列的第793位由碱基G突变成了A,导致氨基酸由甘氨酸变成了精氨酸。