【翻译】GWAS教程：质量控制和统计分析【第一部分：摘要&引言】

原文标题：A tutorial on conducting genome-wide association studies: Quality control and statistical analysis
原文链接：https://pubmed.ncbi.nlm.nih.gov/29484742/

上班摸鱼期间借助机翻整了两大段，后面有时间再继续

摘要

目标：全基因组关联分析（Genome-wide association studies, GWAS）在鉴定单核苷酸多态性（single nucleotide polymorphisms, SNPs）和表型特征（phenotypic traits）之间的关联方面变得越来越流行。GWAS方法通常应用于社会科学研究中。然而，在使用GWAS方法的过程中，需要进行仔细的统计分析，并且需要使用专用的遗传学软件。本教程旨在为进行遗传分析提供指导。

方法：我们讨论和解释了关键的概念，并说明了如何使用通过Github提供的实例脚本进行GWAS。除了标准GWAS的说明之外，我们还将展示如何应用多基因风险评分（polygenic risk score, PRS）分析。PRS的目的不在识别单个SNP，而是聚合来自整个基因组的SNP的信息，以提供个体水平的遗传风险评分。

结果：本教程中将说明的模拟数据和脚本提供了遗传分析的动手实践过程。这些脚本基于PLINK、PRSice和R，他们是可供新手用户访问的常用的、免费提供的软件工具。

结论：通过提供理论背景和实践经验，我们的目标是让没有经过该领域正规培训的研究人员更容易学习GWAS。

关键词：全基因组关联分析、Github、PLINK、多基因风险评分、教程

1 | 引言

在过去的20年中，人们对调查遗传风险因素对人类行为变异的影响越来越感兴趣。进行基因研究所需的技术和分析工具越来越容易获得。在可访问性上的提升为研究提供了巨大的希望，因为遗传学领域以外的研究人员可能会给该领域带来新的专业知识（例如，对精神病学特征的疾病分类学有更深入的了解）。然而，以正确的方式进行遗传关联分析研究需要遗传学、统计学和（生物）信息学领域的特定知识。本文旨在通过介绍关键概念和共享可用与数据分析的脚本，为进行遗传分析提供指导。

全基因组关联分析的目的在于确定单核苷酸多态性（SNP，参见附录对粗体名词的解释），其中等位基因频率（allele frequencies）作为表型特征值系统性变化的函数（例如，精神分裂症病例与健康对照者之间，或神经质高分与低分个体之间）。性状相关SNP的鉴定可能随后揭示对这些表型背后的生物学机制的新见解。技术的进步允许我们调查分布在整个基因组中的大量SNP的影响。

迄今为止，GWAS已经成功地揭示了导致精神相关表型特征风险的SNP，包括精神分裂症、自闭症谱系障碍、注意力缺陷多动障碍、重度抑郁症和双向情感障碍(Gelernter 等人, 2014; Ripke 等人, 2014; Smoller, 2013; Sullivan, Daly, & O'Donovan, 2012)。这些结果的总体情况表明，精神病学表型受到许多常见和罕见SNP的影响，其中每个SNP的个体效应实际上都很小（Gibson，2012）。上述GWAS强烈依赖于对人类基因组遗传结构的深入了解，这由两个重要的研究计划提供，即国际HapMap项目和千人基因组项目。（对这两个项目的相关解说略去）

由于GWAS结果表明了单个SNP的效应量实际上是很小的，精神病学领域的研究人员对聚合SNP效应的方法产生了兴趣。我们将特别关注多基因风险评分（PRS）分析，因为我们认为这是在此提出的最相关的方法，原因在于它相对容易实施，同时可以应用在样本量相对适中的目标样本上（Dudbridge, 2013）。PRS将多个SNP的影响大小组合成一个可以用来预测疾病风险的汇总评分（Dudbridge, 2016）。PRS是一个个体级别的分数，是根据一个人携带的风险变异的数量来计算，并通过SNP效应大小加权得到的，这些效应大小来自独立的大规模发现GWAS。因此，这个分数是特定个体对特定性状的总遗传风险的指标，可用于临床检测或筛查（例如，乳腺癌；Shieh等人, 2016）。对于精神病学性状，PRS也与病例对照状态显著相关；然而，它的判别准确度（还）不足以满足临床应用（Vassos 等人，2017 年；Wray 等人，2013 年）。 PRS通过其预测疾病状态的能力，为我们了解精神病学相关性状的遗传结构做出了贡献。它已进一步用于研究从特定表型的GWAS获得的遗传效应大小是否可用于预测另一种表型的风险（Derks 等，2012；Ruderfer 等，2014；Smoller， 2013 年；斯金格、卡恩、德维特、奥夫夫和德克斯，2014 年）。

尽管最近的GWAS研究已经完成了对许多表性特征显著相关的SNP的鉴定，但社会科学家和临床医生对遗传学领域的贡献可以提高我们对特定行为、认知或神经的确切性质或者确定的风险SNP的相关性的理解。然而，遗传数据的分析需要执行多项质量检查和仔细的统计分析，以避免由于几种潜在的混杂来源（例如种族分层）而产生虚假关联。此外，至少需要对genetic power的计算有一定的了解，以避免进行genetic power不足的研究。有关如何进行genetic power分析的更多信息，请参阅我们小组的另一个教程（Stringer等人，2015）。

本教程为希望将遗传学纳入其研究中，但没有该领域的研究背景的研究人员提供指导。首先，我们将展示如何在进行GWAS之前对基因型数据应用严格的质量控制（Quality Control, QC）流程，包括使用适当的方法来将种族异质性（ethnic heterogeneity）纳入考虑中。其次，我们说明了SNP与感兴趣的表性特征之间关联的常用测试，同时控制了潜在的混杂因素。第三，我们将展示如何进行PRS分析。https://github.com/MareesAT/GWA_tutorial/ 提供了示例的R和Unix脚本。我们没有详细说明基于参考数据的未测量的SNP的SNP imputation。虽然SNP imputation是GWAS中常用的方法，但它超出了本文叙述的范围。有关该主题的详细介绍，我们可以参考van Leeuwen 及其同事 (2015) 的一篇文章。

posted @ 2021-06-25 21:52 Minerw 阅读(850) 评论(0) 收藏举报

刷新页面返回顶部

Loading

爱学不学

随笔一般是当笔记和草稿来用，没啥排版的，有时间会重新排版；有可能会被误认为是内容农场但实际上并不是

【翻译】GWAS教程：质量控制和统计分析【第一部分：摘要&引言】

摘要

1 | 引言

公告

Loading

爱学不学

随笔一般是当笔记和草稿来用，没啥排版的，有时间会重新排版； 有可能会被误认为是内容农场但实际上并不是

【翻译】GWAS教程：质量控制和统计分析【第一部分：摘要&引言】

摘要

1 | 引言

公告

随笔一般是当笔记和草稿来用，没啥排版的，有时间会重新排版；有可能会被误认为是内容农场但实际上并不是