尘封在文件夹中的GWAS和QTL定位的古老笔记

long long ago,小野记录了关于重测序基因定位和GWAS相关的笔记。打开古老的文件夹,发现有些东西依然不过时,零零散散,随意发布。

QTL定位策略:

  • 群体类型:作图群体,自然群体
  • 选材策略:全群个体分析,选择基因型分析,混合分组分析
  • 优点:适合稀有基因研究;群体可控,目的性和结果预期性强
  • 缺点:需构建作图群体;定位精度低,微效QTL难检测;无法找到最优等位基因

限制家系群体定位精度的最大原因:重组事件有限,染色体没有充分“打碎”;

  • F2家系:一代的重组;
  • RIL10:十代的重组

自然群体的优势:经历多世代的繁衍后,群体中的染色体不断重组,被拆散为一个个“小模块”。

单体型块:染色体“板块漂移”,制造的“孤岛”。

最简单的模型:方差分析

GWAS分析的多阶段设计

  • 单阶段:一个群体进行关联分析。不严谨,一般为动植物类的研究。
  • 两阶段:
    阶段1:找候选关联位点。小样本(几百)全基因组关联分析,得到候选位点;
    阶段2:候选位点的验证。已有群体大样本(成千上万)或新的独立群体,候选位点的关联分析。

多阶段设计的优点:

  • 有验证的步骤:可靠
  • 降低成本:第二阶段的检测位点数较少;
  • 解决潜在的多重检验过校正的位点;重测序位点多,多重检验过于严格。例如:1M SNP , Bonferroni 校正阈值= 0.05/1*10-6=5*10-8

建议:第一阶段放宽过滤阈值,在第二阶段进行验证。由于第二阶段位点数较少,多重检验校正不会如此严苛。

GWAS完整的混合线性模型存在各类干扰的潜在效应(Yu et al., Nat Genet, 2006 38: 203‐208):

GWAS软件:Tassel、Emma、Emmax、Plink、Gemma、Gapit

群体材料对GWAS结果的影响(Breseghello F et al, Crop Sci.,2006):

群体大小对GWAS结果的影响(Yan et al, Crop Science, 2011):

群体结构和个体间潜在的系谱关系,可能会导致假阳性(Zhu and Yu, 2009, Genetics):

当性状分布恰好和群体结构一致的时候,会导致大量假阳性(Rafalski, 2010, Plant Biol):

群体结构(Q矩阵)和系谱关系(K矩阵)的校正,即Q+K模型。

动物的思路:

  • PCA分析初步判断。
  • 一般而言,动物类样本在系谱清晰,且没有明显群体结构的情况下,可以直接剔除离群样本。剔除后,继续使用PCA分析进行检查。确认没有问题后,然后使用一般线性模型进行关联分析。
  • 如果存在群体分层的迹象,再考虑使用Q矩阵进行矫正;

植物的思路:

  • PCA分析初步判断。
  • 由于品系间杂交很常见(例如玉米),所以群体结构和不同品系间的系谱关系更加普遍。
  • 所以建议分析的时候,同时使用一般线性模型和不同的混合线性模型,然后比较结果的好坏。

表型处理:

  • 正态性判断:shapiro.test(x)
  • 仅仅个别样本异常,建议剔除:如极端值,离开均值大于4倍SD
  • 如果整体偏离散,例如基因表达量值。建议取log2后,重新检验正态性。

判断模型的合理性:

  • QQplot:随机p value和检验p vlaue分布间的关系
  • 良好模式:前期一致,后期翘起
  • 过度矫正:真实的P值显著性低于随机误差

  • 矫正不足:大部分标记的显著性都高于随机误差

同一个群体,不同性状的最适模型并不相同(Yang et al, Theor Appl Genet , 2010 121:417–431):

连锁作图(QTL定位)和关联作图(GWAS)的互补性:

材料组合的精度提升:

  • 连锁分析初定位,确定QTL
  • QTL区域选择候选基因
  • 自然群体关联分析,精细定位

材料组合的可靠性提升:

  • 自然群体关联分析
  • 确定若干候选QTL
  • 连锁分析验证QTL

本文笔记主要来自基迪奥的报告,侵权删

posted @ 2024-06-16 10:36  生物信息与育种  阅读(64)  评论(0编辑  收藏  举报