【翻译】RAINBOW：采用新型SNP-set方法的基于单倍型的全基因组关联分析【第一部分：摘要和引言】

原文标题：RAINBOW: Haplotype-based genome-wide association study using a novel SNP-set method

摘要

难以检测罕见变异是传统全基因组关联分析（GWAS）中的问题之一。这个问题与有多个等位基因组成的复杂基因组成密切相关，如单倍型（haplotype）。为了解决这个问题，人们已经提出了一些基于SNP-set的方法。然而，这些方法很少与单倍型有关。在本研究中，我们开发了一种名为“RAINBOW”的新型SNP-set方法，并将该方法应用于单倍型的GWAS，将单倍型块视为SNP-set。将单倍型块评估和SNP-set GWAS结合到一起，基于单倍型的GWAS可以在没有单倍型信息的前提下进行。我们准备了100个模拟表型数据和真实标记基因型数据的数据集，并对这些数据集进行了GWAS研究。在比较了我们的方法、传统的单一SNP GWAS、传统的基于单倍型的GWAS和传统的SNP-set GWAS的性能之后，我们提出的方法在以下三个方面优于其他方法:(1)对假阳性的控制；(2)如果数据集中有causal变异的基因型，则无需依赖连锁不平衡来检测；(3)它比其他方法展示出更强的能力，即它能够检测到其他方法没有检测到的causal变异，主要是当causal变异的位置非常接近时，而且它们的影响方向（the direction of their effects）相反时。通过使用本研究中的SNP-set方法，我们期望不仅可以实现对罕见变异的检测，还可以检测具有复杂机制的基因，如具有多个casual变异的基因。RAINBOW已经以R包"RAINBOWR"的形式实现，可以从CRAN以及Github上下载。

引言

随着下一代测序成本的降低和通量的提高，可用于全基因组关联分析（GWAS）的accession的数量也在增加。利用这样的大型测序数据，GWAS现在不仅被广泛用于人类，也被用于植物和动物的遗传育种研究中，并发现了与重要农艺（agronomic）性状相关的新基因。大型下一代测序数据的一个（应用）例子是本研究中使用的"3000 rice genomes project"，其数据可在"Rice SNP-Seek Database"中找到。使用这些数据研究的GWAS结果已经被报道过了。

尽管这些公共数据得到了加强，传统的GWAS方法在检测未知的候选基因方面仍然面临着障碍。一个常见的例子是，它难以检测到罕见的等位基因或罕见变异。罕见变异引起的一个问题是，与一个causal罕见变异具有强连锁不平衡（linkage disequilibrium, LD）的非causal标记表明比真正的causal罕见变异具有更高的检测能力，这可能会干扰真正causal编译的检测。这种现象被称为“合成关联（synthetis association）”，通常发生在非causal标记的次要等位基因频率（minor allele frequency, MAF）高于真正稀有变异的频率时[13]。这个问题与包含多个等位基因的复杂基因组成（如单倍型）密切相关，因为与重要农艺性状相关的基因通常由多个稀有等位基因组成，这就是为什么使用GWAS难以检测单倍型的原因[14]。

人们已经提出了几种方法来解决这个问题。序列核关联测试（sequence kernel association test, SKAT）是用于检测稀有变异的方法之一，主要用于人类基因组学[15]。SKAT采用SNP-set方法，可同时测试每个SNP-set中的多个SNP。SKAT使用混合效应模型方法（mixed effect model approach）[16, 17]评估由感兴趣的SNP-set解释为随机效应的方差的显著性。原始SKAT的致命缺点是该模型没有考虑家庭相关性的影响作为随机效应，导致GWAS在人口结构或家庭相关性强的材料中出现误报，例如在本研究中使用的水稻种质的世界数据集合。还提出了一些方法来克服SKAT的另一个缺点：稀有和常见变异的SKAT加权方案会导致常见变异的功效损失，但它们的模型也不包括用于纠正家庭相关性的混杂效应的相关操作（译者注：原文为term）。

为了解决原始SKAT的致命缺点，先前已经提出了几种方法，其模型包括将家庭相关性作为随机效应来控制误报[20-22]。从统计的角度来看，这些方法通常执行评分检验（score test）[23]，这是一种计算效率高的方法，因为它只需要对空模型进行方差分量统计。然而，就检测能力而言，评分检验不一定是测试混合效应模型中随机效应的最佳方法[24]。似然比（likelihood-ratio, LR）检验是用于测试感兴趣的SNP-set方差的另一种候选方法，并且一些将LR检验用于家庭样本中的SNP-set GWAS的方法也已经被提出了[24, 27]。特别是，Lippert等人使用LR检验实现了一种计算效率高的SNP-set GWAS方法，并报告说LR检验展示出比score test更强的能力[24]。尽管是这样一种有效的方法，但Lippert等人主要使用线性核来从每个SNP-set构造Gram矩阵，因此其他核，例如高斯核或指数核，不能用于他们方法中的Gram矩阵。

基于单倍型的方法试图提高causal单倍型的检测能力，从一个基因作为一个基因组的工呢个，而不是基因组中的每个SNP的角度来看合理的。这些基于单倍型的方法有望比单SNP方法更好地控制假阳性，因为基于单倍型的方法关注整个单倍型块，而不是单倍型块中的每个SNP。这些方法还有望揭示在关注一个SNP时无法检测到的causal单倍型的复杂机制，如两个causal定量性状基因座（quantitative trait loci, QTL）之间的排斥状态，这两个基因座彼此靠近。然而，到目前为止，只有少数基于单倍型的GWAS方法被提出。在植物基因组学方面，Yano等人通过测试单倍型的影响，同时将单倍型组的虚拟变量（dummy variables）作为固定效应，进行了基于单倍型的GWAS，发现了与水稻发芽期有关的新的候选基因[28]。在动物基因组学中还提出了其他方法，通过将单倍型视为随机效应来估计祖先的单倍型效应[29,30]。在他们的方法中，如果个体属于同一祖先单倍型，随机效应的协方差矩阵的每一对元素被确定为1，否则为0。然而，这些传统的基于单倍型的GWAS方法需要先验的的单倍型信息，在全基因组水平上应用这些方法并不是那么容易。

在本研究中，我们更广泛地扩展了多核混合效应模型，以考虑家族亲缘关系，同时使一些有限的情况下的计算速度得到提高，并开发了一种新的SNP-set GWAS方法，名为RAINBOW（Reliable Association INference By Optimizing Weights）。我们还从全基因组标记基因型数据中估计了单倍型块，并将其作为SNP-set用于RAINBOW的分析，以实现基于单倍型的GWAS，而无需事先提供单倍型信息。

posted @ 2021-07-21 18:04 Minerw 阅读(819) 评论(0) 收藏举报

刷新页面返回顶部

Loading

爱学不学

随笔一般是当笔记和草稿来用，没啥排版的，有时间会重新排版；有可能会被误认为是内容农场但实际上并不是

【翻译】RAINBOW：采用新型SNP-set方法的基于单倍型的全基因组关联分析【第一部分：摘要和引言】

摘要

引言

公告

Loading

爱学不学

随笔一般是当笔记和草稿来用，没啥排版的，有时间会重新排版； 有可能会被误认为是内容农场但实际上并不是

【翻译】RAINBOW：采用新型SNP-set方法的基于单倍型的全基因组关联分析【第一部分：摘要和引言】

摘要

引言

公告

随笔一般是当笔记和草稿来用，没啥排版的，有时间会重新排版；有可能会被误认为是内容农场但实际上并不是