机器学习利用在基因组预测中的评估

本文旨在比较机器学习方法在基因组预测中的表现,并评估其对高维数据的处理能力。作者使用了正则化回归、深度学习、集成和实例基础学习等不同类型的监督学习方法,分别应用于模拟动物育种数据集和三个实际玉米育种数据集中。

结果表明,机器学习方法的表现和计算成本取决于数据和目标性状,简单线性混合模型和正则化回归方法由于具有较高的预测性能、计算效率、简单性和相对较少的参数调整而成为强有力的竞争者。因此,需要增加对机器学习算法和计算资源的投资以提高计算效率。

研究主要比较了四种不同的机器学习方法:常规线性回归、正则化回归、适应性正则化回归以及分组回归。

  • 常规线性回归是通过最小二乘法来估计模型参数;
  • 正则化回归是在损失函数中加入惩罚项来控制模型复杂度,从而避免过拟合;
  • 适应性正则化回归是对正则化回归进行了改进,引入了数据驱动的权重来调整惩罚项的强度;
  • 分组回归则是考虑到了基因之间的相关性,将它们分为一组来进行处理。

相比于传统的线性回归方法,这些正则化和分组回归方法可以更好地处理高维数据,并且能够有效地降低过拟合的风险。此外,作者还提出了四个进一步的研究方向,包括探索不同的特征选择或降维技术、评估不同方法的泛化能力、评估不同方法对超参数选择的敏感度以及评估不同方法的训练和测试复杂度。

2010-2012 年 KWS 真实玉米数据集。 5 折交叉验证集 10 个重复,每个重复的训练集(F1-F4)和验证集(F5)中的基因型数量共有 32217 个 SNPs。

posted @ 2024-06-16 10:25  生物信息与育种  阅读(8)  评论(0编辑  收藏  举报