【翻译】RAINBOW:采用新型SNP-set方法的基于单倍型的全基因组关联分析【第一部分:摘要和引言】
原文标题:RAINBOW: Haplotype-based genome-wide association study using a novel SNP-set method
摘要
难以检测罕见变异是传统全基因组关联分析(GWAS)中的问题之一。这个问题与有多个等位基因组成的复杂基因组成密切相关,如单倍型(haplotype)。为了解决这个问题,人们已经提出了一些基于SNP-set的方法。然而,这些方法很少与单倍型有关。在本研究中,我们开发了一种名为“RAINBOW”的新型SNP-set方法,并将该方法应用于单倍型的GWAS,将单倍型块视为SNP-set。将单倍型块评估和SNP-set GWAS结合到一起,基于单倍型的GWAS可以在没有单倍型信息的前提下进行。我们准备了100个模拟表型数据和真实标记基因型数据的数据集,并对这些数据集进行了GWAS研究。在比较了我们的方法、传统的单一SNP GWAS、传统的基于单倍型的GWAS和传统的SNP-set GWAS的性能之后,我们提出的方法在以下三个方面优于其他方法:(1)对假阳性的控制;(2)如果数据集中有causal变异的基因型,则无需依赖连锁不平衡来检测;(3)它比其他方法展示出更强的能力,即它能够检测到其他方法没有检测到的causal变异,主要是当causal变异的位置非常接近时,而且它们的影响方向(the direction of their effects)相反时。通过使用本研究中的SNP-set方法,我们期望不仅可以实现对罕见变异的检测,还可以检测具有复杂机制的基因,如具有多个casual变异的基因。RAINBOW已经以R包"RAINBOWR"的形式实现,可以从CRAN以及Github上下载。
引言
随着下一代测序成本的降低和通量的提高,可用于全基因组关联分析(GWAS)的accession的数量也在增加。利用这样的大型测序数据,GWAS现在不仅被广泛用于人类,也被用于植物和动物的遗传育种研究中,并发现了与重要农艺(agronomic)性状相关的新基因。大型下一代测序数据的一个(应用)例子是本研究中使用的"3000 rice genomes project",其数据可在"Rice SNP-Seek Database"中找到。使用这些数据研究的GWAS结果已经被报道过了。
尽管这些公共数据得到了加强,传统的GWAS方法在检测未知的候选基因方面仍然面临着障碍。一个常见的例子是,它难以检测到罕见的等位基因或罕见变异。罕见变异引起的一个问题是,与一个causal罕见变异具有强连锁不平衡(linkage disequilibrium, LD)的非causal标记表明比真正的causal罕见变异具有更高的检测能力,这可能会干扰真正causal编译的检测。这种现象被称为“合成关联(synthetis association)”,通常发生在非causal标记的次要等位基因频率(minor allele frequency, MAF)高于真正稀有变异的频率时[13]。这个问题与包含多个等位基因的复杂基因组成(如单倍型)密切相关,因为与重要农艺性状相关的基因通常由多个稀有等位基因组成,这就是为什么使用GWAS难以检测单倍型的原因[14]。
人们已经提出了几种方法来解决这个问题。序列核关联测试(sequence kernel association test, SKAT)是用于检测稀有变异的方法之一,主要用于人类基因组学[15]。SKAT采用SNP-set方法,可同时测试每个SNP-set中的多个SNP。SKAT使用混合效应模型方法(mixed effect model approach)[16, 17]评估由感兴趣的SNP-set解释为随机效应的方差的显著性。原始SKAT的致命缺点是该模型没有考虑家庭相关性的影响作为随机效应,导致GWAS在人口结构或家庭相关性强的材料中出现误报,例如在本研究中使用的水稻种质的世界数据集合。还提出了一些方法来克服SKAT的另一个缺点:稀有和常见变异的SKAT加权方案会导致常见变异的功效损失,但它们的模型也不包括用于纠正家庭相关性的混杂效应的相关操作(译者注:原文为term)。
为了解决原始SKAT的致命缺点,先前已经提出了几种方法,其模型包括将家庭相关性作为随机效应来控制误报[20-22]。从统计的角度来看,这些方法通常执行评分检验(score test)[23],这是一种计算效率高的方法,因为它只需要对空模型进行方差分量统计。然而,就检测能力而言,评分检验不一定是测试混合效应模型中随机效应的最佳方法[24]。似然比(likelihood-ratio, LR)检验是用于测试感兴趣的SNP-set方差的另一种候选方法,并且一些将LR检验用于家庭样本中的SNP-set GWAS的方法也已经被提出了[24, 27]。特别是,Lippert等人使用LR检验实现了一种计算效率高的SNP-set GWAS方法,并报告说LR检验展示出比score test更强的能力[24]。尽管是这样一种有效的方法,但Lippert等人主要使用线性核来从每个SNP-set构造Gram矩阵,因此其他核,例如高斯核或指数核,不能用于他们方法中的Gram矩阵。
基于单倍型的方法试图提高causal单倍型的检测能力,从一个基因作为一个基因组的工呢个,而不是基因组中的每个SNP的角度来看合理的。这些基于单倍型的方法有望比单SNP方法更好地控制假阳性,因为基于单倍型的方法关注整个单倍型块,而不是单倍型块中的每个SNP。这些方法还有望揭示在关注一个SNP时无法检测到的causal单倍型的复杂机制,如两个causal定量性状基因座(quantitative trait loci, QTL)之间的排斥状态,这两个基因座彼此靠近。然而,到目前为止,只有少数基于单倍型的GWAS方法被提出。在植物基因组学方面,Yano等人通过测试单倍型的影响,同时将单倍型组的虚拟变量(dummy variables)作为固定效应,进行了基于单倍型的GWAS,发现了与水稻发芽期有关的新的候选基因[28]。在动物基因组学中还提出了其他方法,通过将单倍型视为随机效应来估计祖先的单倍型效应[29,30]。在他们的方法中,如果个体属于同一祖先单倍型,随机效应的协方差矩阵的每一对元素被确定为1,否则为0。然而,这些传统的基于单倍型的GWAS方法需要先验的的单倍型信息,在全基因组水平上应用这些方法并不是那么容易。
在本研究中,我们更广泛地扩展了多核混合效应模型,以考虑家族亲缘关系,同时使一些有限的情况下的计算速度得到提高,并开发了一种新的SNP-set GWAS方法,名为RAINBOW(Reliable Association INference By Optimizing Weights)。我们还从全基因组标记基因型数据中估计了单倍型块,并将其作为SNP-set用于RAINBOW的分析,以实现基于单倍型的GWAS,而无需事先提供单倍型信息。
本文来自博客园,作者:Minerw,转载请注明原文链接:https://www.cnblogs.com/minerw/p/rainbowr-paper-part1.html