一文搞懂基因融合(gene fusion)的定义、产生机制及鉴定方法
欢迎关注微信公众号:AIPuFuBio和使用生物信息学平台AIPuFu:www.aipufu.com。
【基因融合的定义】
基因融合(gene fusion)是指由于某种机制(如基因组变异)使得两个不同基因的部分序列或全部序列融合到一起,形成了一个新的基因。如下图所示:
一般来说,基因融合是指基因组层面的融合。但转录组层面也可能发生融合,主要是由于两个不同基因转录产生的RNA,由于某种原因融合在了一起,形成新的融合RNA,该RNA可能编码蛋白,也可能为非编码。而基因组层面产生的融合基因,根据融合的情况,可能表达,也可能不表达(如破坏了启动子区域或其他原因)。
【基因融合的产生机制】
基因融合的产生机制主要有以下三种,具体如下图所示:
基因融合常见的三种发生机制:
1)Chromosomal Translocation,染色体易位。如上图A中1号和2号染色体上的两片段发生交叉互换,导致1号染色体上的浅绿色基因与2号染色体上的橘黄色基因融合到一起;
2)Interstitial deletion,中间缺失。如上图中,3号染色体上的橘黄色基因和浅绿色基因之间的区段发生缺失(deletion),最终导致这两个基因融合到了一起;
3)Chromosomal Inversion,染色体倒位。如4号染色体上的橘黄色基因到墨绿色基因之间的片段发生倒位,最终导致橘黄色基因和浅绿色基因融合到了一起。
【基因融合与癌症的关系】
那为什么要研究基因融合呢?因为过去的诸多研究不断表明,基因融合与各种疾病,特别是癌症的发生发展紧密相关,甚至是一些癌症的直接诱因,所以基因融合也成为了当前组学大数据分析中的一项重要研究内容。
目前,已经报道有很多癌症的发生与基因融合密切相关,具体如下表所示:
而且,美国FDA(Food and Drug Administration)已经批准了一些针对特定基因融合的药物,以治疗相应的癌症,具体如下表所示:
因此,基因融合可能与各种癌症的发生发展紧密相关,这些融合基因还可能是潜在的药物靶点,非常有必要对它们进行深入的研究。
【基于全基因组测序和转录组测序鉴定基因融合】
基因融合的鉴定,可以基于全基因组测序数据(whole-genome sequencing,WGS),也可以利用转录组测序数据(RNA-seq),或者二种技术结合起来更好。
全基因组测序鉴定出的基因融合,基本能确定是由于基因组层面发生某种变异而引起的,但如果没有转录组测序数据,就无法准确判断融合后产生的新基因是否能够表达,或表达量的高低。
而转录组测序数据鉴定出的基因融合,可以明确是能表达的基因融合,但却无法完全确定是否是由基因组变异产生的,还是来源于两个不同基因转录后发生的RNA融合。
因此,如果条件允许,同时结合全基因组测序和转录组测序来鉴定基因融合,能够获得更准确的鉴定结果。
【基因融合鉴定中的常见术语】
在了解基因融合鉴定的方法或软件前,我们先了解一下基于测序数据鉴定基因融合时的一些常见术语。具体如下图所示:
这些常见的术语有:
1)Intact exon (IE) type fusion,是指融合后完整的保留了原来的外显子,未影响原来的外显子结构。如上图A中Gene A的Exon2和Gene B的Exon1融合后完整的保留了两个外显子的序列;
2)Broken exon (BE) type fusion,是指融合后没有保留原来完整的外显子序列。如上图A中 Gene A的Exon3的部分序列和Gene B的Exon2融合在一起,融合后的新基因中,来自Gene A的Exon3丢失了部分序列;
3)Breakpoint,是指两个融合基因在基因组上发生融合的位置,如上图B中Gene A(蓝色)和Gene B(绿色)融合的位点;
4)Spanning read,是指跨越融合位点分别匹配到两个融合基因的paired-end read,比如上图B中的匹配到Gene A(蓝色)和Gene B(绿色)的一对read;
5)Split read,是指恰好匹配到融合位点上的read,具体如上图B中右侧图所示;
6)Anchor length,是指跨越融合位点的read左端和右端的长度,具体如上图B中右侧图所示;
7)short insert size,一般是指双端测序paired-end sequencing中,两个read中间间隔的较短距离,一般为几百bp;
8)long insert size,一般是指双端测序mate-pair sequencing中,两个read中间间隔的较长距离,一般为几kb甚至更长;
基因融合鉴定软件的开发,一般就是基于上面提到的这些术语,采用相应的算法来设计的。
【基因融合鉴定软件的性能比较】
到目前为止,已经有数十种不同的基因融合检测软件相继被开发出来,其中一些具有比较好的综合性能。接下来,我们就进一步比较分析一下一些常用的基因融合鉴定软件的性能。
下表列出了15种常用的基因融合鉴定软件在3组不同类型的人工合成数据和3组真实数据集上的性能比较。这些软件分别是:SOAPfuse,FusionCatcher,JAFFA,EricScript,chimerascan,PRADA,deFuse,FusionMap,TopHat-Fusion,MapSplice,BreakFusion,SnowShoes-FTD,FusionQ,FusionHunter,ShortFuse。
值得注意的是,测序read的长度,还有双端测序read的间隔距离insert size等都会影响基因融合的鉴定效果。因此,上面表中使用了不同类型的测数据来综合检验这15款软件的性能。其中,Type-1A 为使用wgsim软件人工合成 的来自5’ 和 3’ end 的chimerical transcripts 双端测序数据, 其中read长度为100bp,insert size 为500 ± 50 bp; Type-1B数据合成方法和Type-1A类似,只是双端测序数据的insert size较小,为 250 ± 50 bp;Type-3B: read 长度为50 bp 的合成数据; 另外三组真实数据分别来自于Breast cancer,Melanoma和Prostate cancer。
比较结果显示,SOAPfuse,FusionCatcher和JAFFA在3组模拟数据和3组真实数据上的综合性能最好,取得了最高的F-measure分值。
Liu et al. 进一步比较了15种基因融合检测软件在更多真实数据上的性能表现。具体如下图所示:
真实数据上的比较结果也显示,SOAPfuse,FusionCatcher和JAFFA在检测基因融合时具有较高的准确性。
Liu et al. 也比较了15种基因融合检测软件在不同测序深度的合成数据集和真实数据集上的运行时间比较。具体如下图所示:
运行时间比较结果显示,FusionMap等软件的运行速度最快。但前面的结果显示,FusionMap检测的基因融合准确性较低。
所以,没有哪一个方法在各方面的性能比较上面都具有最明显的优势。整体来看,SOAPfuse综合比较最好,接着是FusionCatcher和JAFFA。 而且,因为不同软件具有的优缺点不一样,如果联合多个不同软件一起鉴定基因融合,或可取得更准确的结果。
更多精彩,可见大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com,关注微信公众号:AIPuFuBio。
希望今天的内容对大家有用,欢迎留言~~!