AS | 利用自动机器学习实现玉米杂交种的环境数据驱动遗传分析和基因组预测

背景

2025年3月6日,中国农业科学院作物科学研究所作物智能设计算法模型创新研究组成功研发了一套自动化机器学习框架,通过将气象环境大数据与基因组信息深度融合,实现了作物精准遗传分析与基因组预测,为作物智能设计育种提供有效工具。相关研究成果发表在《Advanced Science》上。

本文研究的核心是利用自动化机器学习(AutoML)框架,结合环境数据和基因组数据,以提高玉米杂交种的遗传分析和基因组预测的准确性和效率。研究背景基于基因型(G)、环境(E)及其互作(G×E)对作物表型和适应性的重要影响。随着气候变化对作物产量的负面影响加剧,培育气候适应性强的作物品种变得愈发重要。然而,以往的研究未能充分探讨表型可塑性(PP)和G×E互作的遗传基础,也未明确哪些环境参数(EPs)会影响与环境互作的基因位点。因此,本研究旨在通过整合环境数据和基因组数据,揭示PP和G×E互作的遗传机制,并开发气候适应性强的玉米品种。

图片

方法

数据集:研究使用了大规模多环境玉米杂交种数据集,包括1000个玉米杂交种在7个实验环境中的数据,并在额外的2808个玉米杂交种和286个小麦品系数据集上进行验证。

环境参数处理:通过将玉米生长阶段与环境参数(如温度、光照、降水等)相结合,将高维度的环境参数(EPs)降维为与发育阶段相关的环境参数(RD_EPs),以建立环境与表型之间的线性关系。

GWAS分析:利用全基因组关联分析(GWAS)识别与PP和G×E互作相关的标记(TAMs),包括表型可塑性相关标记(PP-TAMs)、环境稳定性标记(Main-TAMs)和G×E相关标记(G×E-TAMs)。

自动化机器学习框架:构建了一个AutoML框架,整合数据处理、环境特征处理、GWAS、模型训练和表型预测功能。该框架使用多种机器学习模型(如CatBoost、XGBoost、LightGBM和贝叶斯岭回归)进行模型训练,并通过Optuna算法优化超参数,使用SHAP技术增强模型可解释性。

结果

表型可塑性和G×E互作
研究发现,环境(E)和G×E互作对玉米杂交种的表型(如开花时间、粒重和产量)有显著影响,其中开花时间受环境影响最大,而产量受G×E互作的影响最为显著。

GWAS分析
共鉴定出854个TAMs,包括539个PP-TAMs、223个Main-TAMs和92个G×E-TAMs。这些标记揭示了PP和G×E互作的遗传基础,并发现PP和G×E的遗传位点重叠较少,表明它们可能具有不同的遗传基础。

基因组预测模型
将TAMs和RD_EPs整合到基因组预测模型中,显著提高了预测准确性。与全基因组标记方法相比,预测准确率提高了14.02%至28.42%。此外,模型在独立测试数据集上表现出良好的可扩展性。

模型比较
与现有的22种统计模型相比,基于AutoML的基因组选择模型(Auto-GS)在不同预测任务中均表现出更高的预测准确性和计算效率。

玉米杂交种的多环境试验概述。

玉米杂交种的多环境试验概述。

用于玉米杂交种遗传分析和基因组预测的自动化机器学习框架设计。

用于玉米杂交种遗传分析和基因组预测的自动化机器学习框架设计。

根据玉米杂交种发育时期的环境参数降维

根据玉米杂交种发育时期的环境参数降维

表型可塑性参数估计与全基因组关联分析。

表型可塑性参数估计与全基因组关联分析。

利用自动化机器学习框架训练和解读基因组预测模型。

利用自动化机器学习框架训练和解读基因组预测模型。

基于自动化机器学习的基因组选择模型与其他统计模型在多种预测场景下的预测准确性比较分析。

基于自动化机器学习的基因组选择模型与其他统计模型在多种预测场景下的预测准确性比较分析。

多环境联合基因组预测:跨环境和跨基因型

多环境联合基因组预测:跨环境和跨基因型

讨论

环境数据的重要性:研究表明,环境因素在玉米表型变异中起着关键作用,尤其是在开花时间和产量方面。因此,将环境数据纳入遗传分析和育种计划具有重要意义。

PP与G×E的遗传基础
研究发现PP和G×E互作的遗传基础差异较大,表明需要采用不同的方法来挖掘环境响应性遗传位点。

AutoML框架的优势:AutoML框架能够有效整合环境数据和基因组数据,提高基因组预测的准确性和效率。该框架在多环境联合预测中表现出色,具有良好的可扩展性。

未来研究方向:尽管研究识别了大量与PP和G×E互作相关的标记,但这些标记的因果基因尚未明确。未来的研究可以通过多环境转录组分析和基因编辑技术来验证这些标记的功能,并将其应用于气候适应性玉米杂交种的育种中。

数据和代码

数据
Phenotypic and genotypic data for maize hybrids are available on The Genomes To Fields Initiative:

https://www.genomes2fields.org/resources/ ;
https://ftp.cngb.org/pub/CNSA/data3/CNP0001565/zeamap/
99_MaizegoResources/01_CUBIC_related/

Phenotypic and genotypic data for wheat:

http://hdl.handle.net/11529/10714

GitHub

https://github.com/AIBreeding/AutoGS

总结

研究团队利用大规模多环境玉米杂交种数据集,开发了一套自动化机器学习框架,将环境数据与基因组信息深度融合开展遗传分析与基因组预测。该框架较传统基因组预测方法有3大亮点。一是集成了遗传和环境特征处理功能。基于玉米发育阶段分割降维环境参数,计算性状的表型可塑性参数,结合GWAS挖掘性状稳定遗传位点和环境响应位点,并将降维后的环境参数和GWAS位点作为输入进行基因组预测;二是集成多种先进技术进行模型训练。利用Optuna驱动的自动化超参数优化技术来提升模型训练和预测效率,利用模型集成技术来提升最终预测模型的精度。与传统统计模型相比,计算时间缩短可达290倍,且能保持较高的预测精度;三是利用SHAP可解释技术进行模型解释。采用源于博弈论的SHAP可解释技术对模型进行事后解释以量化遗传和环境特征对表型变异及模型性能的贡献。该研究可为解析基因型与环境互作的生物学机制提供重要参考,同时为作物育种提供了新的工具。

作科所与国家南繁研究院联合培养的博士后何坤辉、博士研究生余廷熙为论文共同第一作者,李慧慧研究员为论文的通讯作者。该研究得到比尔及梅琳达·盖茨基金会可持续发展国际合作项目、国家自然科学基金、中国农业科学院科技创新工程等项目的资助。

原文链接:
https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202412423

posted @ 2025-04-23 22:18  生物信息与育种  阅读(30)  评论(0)    收藏  举报