JIPB | 利用多环境数据对玉米杂交种产量和水分含量进行精准的基因组预测

背景

玉米(Zea mays L.)是全球三大主要粮食作物之一,其产量的提升主要归功于杂种优势。传统的玉米杂交种选育依赖于多环境测试和育种者的经验,这种方法耗时且成本高昂。随着全球气候的变化,开发适应不同环境的高产玉米种质变得尤为重要。基因组选择(Genomic Selection, GS)作为一种利用全基因组标记预测育种值的策略,可以加速育种周期、降低成本并提高效率。然而,现有的基因组预测模型主要关注遗传效应,而忽略了环境对表型的影响,这限制了模型预测准确性的提升。因此,将环境数据整合到基因组预测模型中,以提高预测性能和育种效率,是当前研究的重要方向。

近日,中国农业科学院作科所联合金象种业在JIPB发表了题为“Accurate genomic prediction for grain yield and grain moisture content of maize hybrids using multi-environment data”的研究论文。研究通过融合基因组和气象环境大数据,显著提升了玉米杂交种籽粒产量 (grain yield,GY) 与籽粒含水量 (grain moisture content,GMC) 的跨环境预测精度,为全基因组预测方法的优化和玉米杂交育种决策提供了重要依据。

图片

方法

植物材料与基因分型

研究使用了475份玉米自交系,通过北卡罗来纳II(NCII)设计生成了2,126个杂交种。利用GenoBaits玉米10K芯片标记面板进行目标捕获和基因分型,最终获得9,355个高质量的单核苷酸多态性(SNP)标记用于分析。

表型数据分析

在中国34个地点(分为东北地区和黄淮海地区)对这些杂交种进行了2020-2021年生长季的田间试验,评估了籽粒水分含量(GMC)和籽粒产量(GY)。采用混合线性模型分析方差,并估计杂交种的表型值。

环境数据分析

从WorldClim和NASA Power数据库获取了34个地点的气候数据,包括19个气候因子(如温度、降水、太阳辐射等)。通过主成分分析(PCA)和相关性分析,筛选出与GMC和GY最相关的9个气候因子。

基因组预测模型

比较了三种模型:BayesB、GBLUP和GBLUP-GE。GBLUP-GE模型通过纳入基因型-环境(G×E)互作效应来提高预测准确性。模型训练和验证采用10倍交叉验证,预测准确性通过皮尔逊相关系数(PCC)和PCC²/H²(H²为广义遗传力)来评估。

结果

遗传结构和多样性

通过PCA和邻接树分析,475份玉米自交系被分为三个亚群,分别包含220份母本、77份父本和178份父本。G2亚群遗传多样性最高,G1亚群最低。

475份玉米自交系遗传多样性与群体结构

475份玉米自交系遗传多样性与群体结构

表型分布

在34个地点中,1,488个杂交种在黄淮海地区评估,490个在东北地区评估,128个在两个区域均有评估。GMC和GY的表型分布显示出明显的环境差异。

2020至2021年475份玉米自交系和2126个杂交种在34个地点的分布情况

2020至2021年475份玉米自交系和2126个杂交种在34个地点的分布情况

环境聚类分析

基于19个气候因子的聚类分析显示,东北和黄淮海地区分为两大类,且两年时间尺度的气候数据聚类一致性最高。

基于日气候数据的34个环境的层次聚类分析

基于日气候数据的34个环境的层次聚类分析

基于2020至2021年2126个玉米杂交种的籽粒水分含量(A)和籽粒产量(B)的34个环境的分布和层次聚类分析

基于2020至2021年2126个玉米杂交种的籽粒水分含量(A)和籽粒产量(B)的34个环境的分布和层次聚类分析

模型预测准确性

  • • GBLUP-GE19CF模型(纳入19个气候因子的G×E互作)在预测GMC和GY时表现优于BayesB和传统GBLUP模型,预测准确性分别为0.731和0.331。

  • • 在训练集中增加环境数量可以提高预测准确性。当训练集包含32个环境时,GMC和GY的预测准确性最高,分别为0.972和0.307。

  • • 通过筛选与GMC和GY最相关的9个气候因子(GBLUP-GE9CF模型)或使用PCA降维后的主成分(GBLUP-GEPCA模型),可以减少计算负担,同时保持较高的预测准确性。

跨区域预测

在东北和黄淮海地区之间进行的跨区域预测中,GMC的预测准确性随着训练集环境数量的增加而提高,而GY的预测准确性较低,主要由于其低遗传力和环境差异。

3种模型对2,126个玉米杂交种籽粒含水量和籽粒产量性状的预测精度

3种模型对2,126个玉米杂交种籽粒含水量和籽粒产量性状的预测精度

基于2020至2021年两年的19个气候因子的日气候数据,使用不同数量环境的训练集对2126个杂交种的籽粒水分含量(上图)和籽粒产量(下图)性状进行预测的GBLUP-GE19CF模型的预测准确性。

基于2020至2021年两年的19个气候因子的日气候数据,使用不同数量环境的训练集对2126个杂交种的籽粒水分含量(上图)和籽粒产量(下图)性状进行预测的GBLUP-GE19CF模型的预测准确性。

2020至2021年日气候数据中19个气候因子与2126个玉米杂交种的籽粒水分含量和籽粒产量之间的皮尔逊相关系数。

2020至2021年日气候数据中19个气候因子与2126个玉米杂交种的籽粒水分含量和籽粒产量之间的皮尔逊相关系数。

基于日、月、节气和年尺度收集的气候数据,GBLUP-GE19CF、GBLUP-GE9CF和GBLUP-GEPCA模型在目标区域全数据集中预测玉米杂交种籽粒水分含量和籽粒产量性状的准确性。

基于日、月、节气和年尺度收集的气候数据,GBLUP-GE19CF、GBLUP-GE9CF和GBLUP-GEPCA模型在目标区域全数据集中预测玉米杂交种籽粒水分含量和籽粒产量性状的准确性。

讨论

环境信息在基因组选择中的价值

研究结果表明,将环境信息整合到基因组预测模型中可以显著提高预测准确性。通过考虑气候因子与表型之间的关系,可以更好地捕捉基因型-环境互作效应。

气候因子对GMC和GY的影响

研究发现,温度、日照时长、辐射和蒸发量等气候因子对GMC和GY有显著影响。通过筛选与表型最相关的气候因子,可以优化模型性能并减少计算负担。

跨区域预测的可行性

研究表明,通过在训练集中纳入足够数量的环境数据,可以提高跨区域预测的准确性。这为未来在不同生态区域进行玉米杂交种选育提供了重要的参考。

模型优化和应用

研究提出了基于月平均气候数据的GBLUP-GE模型,为玉米杂交种的基因组预测提供了一种高效且准确的方法。这种方法可以减少多环境试验的时间和成本,同时提高育种效率。

结论

本研究通过整合基因型-环境互作效应和多环境气候数据,显著提高了玉米杂交种籽粒水分含量和产量的基因组预测准确性。研究结果为优化玉米杂交种的基因组预测模型提供了实用指导,并为未来在多环境条件下应用基因组选择提供了重要参考。

图片

posted @ 2025-04-23 22:09  生物信息与育种  阅读(17)  评论(0)    收藏  举报