DNA拷贝数变异CNV检测——基础概念篇
一、CNV 简介
拷贝数异常(copy number variations, CNVs)是属于基因组结构变异(structural variation),根据大小可分为两个层次:显 微水平(microscopic)和亚显微水平(submicroscopic)。显微水平 的基因组结构变异主要是指显微镜下可见的染色体畸变, 包括 整倍体或非整倍体、缺失、插入、倒位、易位、脆性位点等结构变 异。亚微水平的基因组结构变异是指 DNA 片 段 长 度 在 1Kb-3Mb 的基因组结构变异, 包括缺失、插入、重复、重排、倒 位、DNA 拷贝数目变化等,这些统称为 CNV (也称为拷贝数多态性(copy number polymorphisms, CNPs)。
CNVs最初是在病人的基因组中发现, 但后来的研究表明在正常人体中也普遍存, 说明CNV 是一组具有良性、致病性或未知临床意义的基因组结构改变。有统计显示, 目前共发现CNVs约57 829个(这个数据不准确,肯定在更新,图1, 已发现的CNVs与染色体位置关系, http://projects.tcag.ca/variation/), 其中染色体倒位847; 100 bp~1 Kb的插入缺失为30 748个; 倒置断裂位点约14 478个。此外, 据Hurles[1] 研究估计, CNVs至少占到基因组的12%, 已成为基因组多态性的又一重要来源。
有关CNVs的研究将随机个体之间的基因组差异估计值提高到大于1%, 大大改变了人们先前的认识, 有学者甚至认为这一发现将改变人类对遗传学领域的认知[3,9]。与一直以来研究较多的单核苷酸多态性(SNPs)相比, CNVs发生的频率虽然较低, 但累及的序列长度却明显超过了前者, 因此对人类健康和疾病的影响更为显著。
染色体非等位同源重排、非同源突变和非βDNA 结构是 造成基因组拷贝数变异的重要原因。目前研究表明 CNV 偏向 分布于基因超保守区域外的位置, 多达 40%的 CNV 位于基因 沙漠区(gene deserts)。存在 CNV 的基因经常参与人体对外界环 境的反应的生理过程,进而在细胞连接、感观理解、化学刺激、 神经生理等过程中发挥重要作用。不存在 CNV 的基因往往是 剂量敏感性基因, 参与维持细胞的生长发育, 包括细胞信号传 导、增殖、激酶化和磷酸化等过程;同时 CNV 可导致不同程度 的基因表达差异, 对正常表型的构成及疾病的发生发展具有一 定作用。
二、CNV 历史
基因拷贝数CNV研究历史 自 1998 年 Lupski 给出了基因病的定义之后[2] ,目前已经 发现大量的基因病是由基因组结构改变引起的,而非传统的 Watson-Crick 碱基配对变化所引起,其中一些基因病是由重组 区域的基因拷贝数发生改变所致。 2000 年 6 月 26 日参加人类基因组计划 ( human genome project , HGP) 6 个国家 (包括中国) 的科学家公布完成了人类 基因组草图.随后人类基因组序列绘制成功,首次在分子层面,上为人类提供了一份生命“说明书”:HGP 从分子层面上为多 种遗传疾病、癌症及神经退化症的治疗提供了基础。
高通量阵列比较基因组杂交技术(array based comparative genomic hybridization CGH)加速了 CNV 的探究。2004 年 Iafrate 等人通过细菌人工染色体微阵列(bacterial artificial chromosome ,BAC-based array) 对 39 个非相关的健康人研究后发现 255 个变异位点,其中有 24 个位点出现的频率大于 10%,有 6 个位点出现的频率大于 20%,其平均间隔为 1Mb[3] 。同年 Sebat 及同事通过代表性单核苷酸微阵列分析 ( representational oligonucleotide microarray analysis ,ROMA) 对 20 个健康人研 究发现了 221 个 CNV,代表着 76 种 CNP,CNP 间隔平均长为 465kb[4] 。此外发现 CNP 间隔内 70 个不同基因的 CNV,包括调 节神经功能、细胞生长、新陈代谢的基因,以及几种已知疾病的 相关基因。由此可以看出在正常人群中也存在一定数目的 CNV。
伴随着研究者对 CNV 的研究越来越深入,Redon 等人通 过对 270 名具有欧洲、非洲或亚洲世系的 4 个群体研究,构建 了人类基因组第一代拷贝数变异图谱[5] 。该研究表明:拷贝数变 异非常复杂,类型多样。通过两种平台:WGTP platform、500K EA platform,及两种互补技术:单核苷酸多态性(SNP) 基因型微 阵列和基于克隆比较基因组杂交技术对这些个体 DNA 进行鉴 定,结果显示有 1447 种拷贝数变异区(copy number variation regions, CNVR),涵盖了 360 万个碱基(占人类基因组 12 %), 其 中 285 种与孟德尔遗传疾病相关;并且指出 CNV 通常不编码 发育相关的重要基因,而是编码与环境作用相关的基因,即“环 境敏感性基因”,而这些基因通常参与细胞粘附、化学刺激、感 官知觉,神经生理过程等活动。
2009 年 AnnaC 等通过分析全基因组单核甘酸变异(Single Nucleotide Polymorphisms ,SNP)和 CNV 遗传标记与精神分裂 症患者的相关性,提出不常见的致病性 CNV 区域对于精神分 裂症易感性方面发挥更重要的作用,而不支持共同变异(common variation)区域与精神分裂症的相关性[6] 。
2010 年 Christiaan 等通过对 95 个血液肿瘤细胞系的高通 量分析发现了一些共同发生的基因拷贝数变化位点,并对这些 位点进行功能分析,绘制出基因拷贝数变化 (获得或缺失)网 络,从而发现了一些中心节点,进而提出:大规模低强度的拷贝 数变化可能是肿瘤发生发展过程的重要特征[7] 。
目前已有几个数据库用来收集 CNVs 信息[8] :健康人群 CNV 可到 Genomic Variants (www.projects.tcag.ca/variation)查 询;神经发育异常的患者 CNVs 可到 DECIPHER(www.sanger. ac.uk/PostGenomic/decipher/) 查询;染色体异常的患者 CNVs 数据库 www.ukcad.org.uk/cocoon/ukcad、www.isca.genetics.emory.edu/;染色体非平衡变异的患者 CNVs 可到 www.ecaruca. net 查询。
三、CNV 形成机制
基因的结构特征决定基因是否容易发生重组,进而影响基 因拷贝数变化。重组主要发生在特定的重复序列区域,或者低 拷贝重复区(low copy repeats , LCRs)。LCR 中包含一个或多个 基因、假基因、基因片段、逆转录病毒序列、基因调控区,通常分布在端着丝粒和端粒区域,其大小、相对方向、各拷贝之间的距 离及同源程度,均将影响到 CNV 的形成[2] 。然而目前 CNV 的 确切机制仍不甚清楚,可能的机制主要包括非等位基因同源性 重组机制 (non-allelic homologous recombination, NAHR), 非同 源末端连接机制(non-homologous end joining, NHEJ )NAHR 机制一般发生在经常重组的区域,这些区域有如下 特征:(1)片段大小 >10kb,(2)序列同源程度 >97% , (3)序列方 向明确,(4) 每个 LCR 大小控制在 5Mb 以内,(5)LCR 在同一 染色体上[9];而 NHEJ 不需要重组断端之间的具有严格的 DNA 同源性,但是仍能够引发彼此毫不相干的 DNA 断端的连接,导 致包括移位(移位) 等在内的染色体之间的重排。不经常发生重 组的 LCR,或者各 LCR 区域大小不一致时,倾向于通过 NHEJ 机制引起基因拷贝数变化。尽管如此,很多遗传学家并不认可 NHEJ 机制。