TAG | Jose Crossa提出针对离散性状的基因组预测回归模型

在GS领域,虽然已经开发了众多统计模型,但其中大多数是针对数量连续性状的,只有少数是针对离散性状。近日,CIMMYT的Jose Crossa(数量遗传学领域大佬,详见:https://www.cimmyt.org/people/jose-crossa/)针对离散性状提出了一个在贝叶斯框架下的离散对数正态回归模型,该模型使用吉布斯采样器来探索相应的后验分布并做出预测。论文发表在老牌杂志《Theor Appl Genet》,题为:Bayesian discrete lognormal regression model for genomic prediction。

论文概述

本文介绍了一种新的基于离散对数正态分布的回归模型(DLN),用于预测基因组学中的计数性状。传统的统计模型通常假设连续和正态分布的表型数据,但针对计数性状的数据处理相对较少。作者通过将连续的对数正态分布进行离散化,提出了这种新的模型,并利用小麦疾病数据进行了验证。结果表明,该模型在预测计数性状上具有竞争力,是一种自然且有效的方法。

论文方法

方法描述

该研究使用了SNP芯片技术对小麦品种进行了基因型数据的获取,并通过关联分析来确定与Fusarium head blight(FHB)抗性的相关基因。同时,通过对小麦品种在不同环境下的表型数据收集,建立了一个基于Bayesian Ridge Regression模型的预测模型,用于预测小麦品种的FHB抗性。

方法改进

Bayesian Ridge Regression模型是一种可以处理高维和稀疏数据的线性回归模型。相比于传统的线性回归模型,它能够更好地捕捉到特征之间的非线性关系,从而提高预测精度。此外,该研究还采用了交叉验证等评估指标来评价模型的性能,进一步提高了模型的可靠性。

解决的问题

旨在寻找与FHB抗性相关的基因,并建立一个可靠的预测模型来预测小麦品种的FHB抗性。FHB是一种严重的病害,会导致小麦产量下降和品质降低。因此,该研究的结果可以帮助农民选择更具有抗性的小麦品种,从而提高产量和品质。

论文实验

使用三种不同的交叉验证策略对一个离散lognormal模型进行了评估,并与其他两种连续分布的模型进行了比较。具体来说,作者使用了常规交叉验证和留一验证两种策略,分别在三个不同环境中预测结果并计算了平均平方误差(MSE)、归一化均方根误差(NRMSE)和皮尔逊相关系数(Cor)。

结果显示,在常规交叉验证中,没有考虑基因型与环境交互作用的情况下,使用离散lognormal模型和正常模型的效果最好,而当考虑基因型与环境交互作用时,模型性能下降并不显著。在留一环境验证中,使用离散lognormal模型和环境信息以及 GxE 作为预测器时表现最佳,而其他两种模型的表现相对较差。总的来说,本文的结果表明,离散lognormal模型可以在 GxE 不明显的情况下有效地预测植物生长高度数据。

三种传统交叉验证(CV)策略下三个指标值的均值比较:

Discrete lognormal model(DLN),continuous normal (N) and lognormal (LN) models

利用另外两个环境的信息预测每个环境时的三个指标值比较:

论文总结

优点

  • 提出了一种新的离散对数正态模型(DLN)用于基因组预测,并将其应用于一个具有计数性状的数据集。
  • DLN模型结合了对数正态分布的特性与离散响应变量的特点,能够更准确地捕捉基因组数据中的遗传变异。
  • 相比于传统的连续方法,DLN模型在特定应用中表现更好,具有更高的预测准确性。
  • DLN模型相对于其他离散模型更加高效,适合于大规模基因组数据的预测分析。

方法创新点

  • DLN模型是一种新颖的方法,将离散响应变量与对数正态分布相结合,适用于处理基因组数据中的计数响应问题。
  • 相比于传统的连续方法,DLN模型可以更好地捕捉基因组数据中的遗传变异,提高预测准确性。
  • DLN模型相对于其他离散模型更加高效,适合于大规模基因组数据的预测分析。

未来展望

  • DLN模型为基因组预测提供了一个新的思路,未来可以在更多的数据集中探索其应用效果。
  • 可以进一步研究如何将DLN模型与其他信息源(如基因组关系和系谱关系等)结合起来,以提高预测准确性。
  • 未来还可以考虑使用DLN模型来处理基因组数据中的多个响应变量问题,以实现更为全面的基因组预测分析。

注:本篇论文总结主要来自通义千问大模型。

posted @ 2024-06-15 22:44  生物信息与育种  阅读(3)  评论(0编辑  收藏  举报