基于全基因组测序数据鉴定结构变异的四大类算法总结
上次给大家总结介绍了基因组单核苷酸多态性(single nucleotide polymorphism,SNP)的鉴定方法,今天给大家介绍结构变异(structural variations,SV)的种类及基于基因组测序数据的鉴定方法。
因为结构变异是造成物种表型差异的一个重要原因,且与各类疾病,特别是癌症的发生、发展紧密相关,因此研究结构变异非常重要。
结构变异通常是指长度大于1Kb的基因组序列变异,包括多种不同的类型:插入(insertion)、缺失(deletion)、反转(inversion)、异位(translocation)、拷贝数变异(copy number variation,CNV或者duplication)(更多精彩请关注微信公众号:AIPuFuBio)。
具体如下示意图所示:
以前,芯片(array)是检测全基因组范围结构变异非常流行的手段,但现在随着测序价格的不断下降,以及测序技术的优势(特别是单碱基分辨率),全基因组测序已成为检测全基因组范围内结构变异的首选。
下面给大家逐一介绍一下基于基因组测序数据检测结构变异的四大类方法:
1. paired-end mapping (PEM),基于双端测序读段匹配;
2. split read mapping (SRM),基于read分割匹配;
3. depth of coverage (DOC),基于read的覆盖度;
4. assembly-based approach (ASA),基于组装的方法;
具体如下图所示:
从上图中可以看出,这四大类方法并不是适合所有类型的基因组结构变异检测,其中:
1. 基于Read pair,即基于双端测序读段匹配(paired-end mapping)的方法,适用于所有类型的基因组结构变异检测;
2. 基于Read depth,即基于read的覆盖度(depth of coverage,DOC),主要适用于缺失(deletion)和duplication(重复或拷贝数变异)这两大类型的结构结构变异检测;
3. 基于Split read,即基于read分割匹配(split read mapping,SRM),这种方法也适合于所有类型的基因组结构变异检测;
4. 基于Assembly,即基于组装的方法(assembly-based approach,ASA),这种方法也适合于所有类型的基因组结构变异检测;
虽然这四类方法可以用于检测不同类型基因组结构变异,但每种检测方法都有各自的优缺点。具体体现在不同方法的检测精度、可检测结构变异的大小范围、还有复杂度等有一定的区别。
如虽然四类方法都可检测拷贝数变异(copy number variation,CNV),但各类方法的检测准确性和可检测的CNV大小是有明显差别的,具体如下图所示:
由上图可知,四类方法在检测CNV时,它们的检测准确性和可检测的CNV大小明显不同。其中基于read的覆盖度(depth of coverage,DOC)的方法虽然可检测比较大的CNV,但其检测精度较低,而基于read分割匹配(split read mapping,SRM)的方法虽然检测CNV的精度高,但检测的CNV长度通常偏小。
所以,这四类方法在检测基因组结构变异时有各自的长项和短处,是相互补的,可以联合起来使用,以提高结构变异检测范围和精度。
那么检测各类结构变异比较好的软件或工具有哪些呢?下图列出了一些性能比较好的结构变异检测软件,具体如下所示:
总的来说,不同软件或算法在检测结构变异时,它们的检测准确性主要依赖于检测的结构变异类型和结构变异的大小,而且不同软件有各自的强项和弱项,联合使用不同的方法可有效提高检测结构变异的精度和覆盖更广的结构变异长度范围。(更多精彩,可见大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com,关注微信公众号:AIPuFuBio)。
希望今天的内容对大家有用,会持续更新经典内容,欢迎留言~~!