Engineering | 基于机器学习(GS)的作物抗病表型预测

近日,中国农科院植保所联合扬州大学、湖南农大等在中国工程院主刊 Engineering (一区top, IF=12.8)上发表了题为《Development of Machine Learning Methods for Accurate Prediction of Plant Disease Resistance》的研究成果。该研究通过优化多种机器学习流程,开发了基于高通量基因型数据的作物抗病表型精准预测方法,实现了对水稻稻瘟病、纹枯病、黑条矮缩病,以及小麦麦瘟病、条绣病抗性的精准预测。

研究背景

传统抗病育种往往通过筛选已知抗病(R)基因、依据病圃抗性鉴定来选择抗病新品种。在作物对不同病害抗性研究中,已知的抗病基因数量还十分有限,加上近年研究发现,不少感病(S)基因突变、能塑造植物健康微生物组的M基因等对作物的最终抗性表型均起到了重要贡献。因此,高效选育抗病品种需要充分考虑和利用全基因组信息,但目前基于作物高通量基因型数据筛选作物抗病表型的高效精准方法报道较少。

前人有使用全基因组标记数据开发了基于GWAS的GS工具。例如,GMStool使用适当的基于统计和机器学习的模型来搜索最佳标记数量并选择最佳预测模型。以水稻和玉米为例,育种家成功地将GWAS结果的相关位点整合到GS模型中,大大提高了其重要农艺性状的预测精度。

本研究以水稻主要病害稻瘟病、纹枯病和黑条矮缩病,以及小麦麦瘟病(CIMMYT已发表数据)和条锈病为研究对象,利用水稻、小麦自然品种资源的高通量基因型数据、表型数据、通过全基因组关联分析挖掘抗病关联位点信息,通过多种机器学习方法对抗病关联位点基因型和表型进行训练以构建预测模型,基于该模型实现了基于个体基因型精准预测其抗病性水平,解决了传统抗病育种中通常仅依赖少数抗病基因而不能精准选择抗病新材料的问题。

技术路线

研究者首先收集了水稻和小麦的遗传和表型数据。然后,他们采用全基因组关联研究(Genome-wide association study, GWAS)来识别与病害抗性相关的标记性状关联(Marker trait associations, MTAs)。接着,研究者整合了GWAS结果、病害抗性表型和群体亲缘关系(kinship)信息,开发了三种新型机器学习(Machine learning, ML)模型,分别是随机森林分类加亲缘关系(RFC_K)、支持向量分类加亲缘关系(SVC_K)和轻量梯度提升机加亲缘关系(lightGBM_K)。

研究方法

数据收集与预处理: 研究涉及水稻多样性面板I(RDPI)和II(RDPII)以及CIMMYT的小麦种群,小麦和水稻核心群体(各包含超过300个代表性品种)进行多种病害抗性鉴定,对不同病害的抗性分为R(抗病)和S(感病)两种类型(去除部分抗感不确定品种),将复杂的群体数量抗性问题简化为二分类问题。

GWAS分析: 利用Tassel 5.0软件和混合线性模型( MLM)进行GWAS,筛选与病害抗性相关的SNPs。

ML模型开发: 开发了五种ML方法,包括RFC、SVC、lightGBM、DNNGP和DenseNet,并结合亲缘关系信息对模型进行改进。在机器学习训练过程中,对取样过程进行干预,将亲缘关系(K)加入到取样过程,使其每次取样在群体中的分布由随机改为均匀,避免训练过程中的取样不均。

模型训练与验证: 使用10折交叉验证评估模型性能,并在独立的人群上测试模型的泛化能力。

用于构建加kinship机器学习模型以预测抗病性的工作流程图

研究结果

模型性能:在适当P阈值范围内(P值代表全基因组关联分析获得的抗病关联SNP标记的关联值),随机森林分类(RFC)、支持向量机分类(SVC)、以及轻量级梯度提升机器学习(lightGBM)、深度神经网络(DNNGP)、稠密连接卷积网络(DenseNet)等机器学习算法均能实现较高准确性预测。其中,当RFC、SVC、以及lightGBM结合亲缘关系均匀取样训练情况下,即RFC_K、SVC_K、以及lightGBM_K方法(与未结合K取样方法相比较)均能显著提高预测准确性,本研究对水稻稻瘟病抗性的预测准确性最高达95%,跨群体预测结合人工接种鉴定确定的准确性也高达91%。另外,对小麦麦瘟病和条锈病的预测准确性分别达到90%和94%。对水稻纹枯病和水稻黑条矮缩病两种公认难以准确鉴定抗病性的病害,其预测准确性都达到85%。

泛化能力: 将训练好的加亲缘关系模型应用于独立的水稻群体(RDPII),与实际喷灌接种结果相比,预测准确度达到了91%。

模型解释性: 特别是RFC_K模型,在预测稻瘟病抗性方面不仅表现出高预测准确度,而且具有很高的可靠性,其平均AUC值达到了0.9975和0.9966。

RFC、RFC_K、SVC、SVC_K、lightGBM、lightGBM_K、DNNGP和DenseNet模型在p 1.0×10 −3 下抗病性预测准确性≤比较分析。

RFC、RFC_K、SVC、SVC_K、lightGBM、lightGBM_K、DNNGP和DenseNet模型在p 1.0×10 −2 下抗病性预测准确性≤比较分析。

 RFC_K 模型的稻瘟病预测性能和可解释性。

应用经过训练的 RFC_K、SVC_K 和 lightGBM_K 模型预测 RDPII 中的抗稻瘟病。

上述结果说明本研究开发的基于基因型精准筛选表型的机器学习方法对于作物多种病害抗性表型预测具有广适性,未来合理利用可显著提高作物抗病育种效率。

结论与展望

这项研究开发的ML方法不仅为预测植物病害抗性提供了有价值的策略,而且为使用机器学习简化基于基因组的作物育种铺平了道路。研究结果强调了将亲缘关系信息纳入分类器可以显著提高预测准确性,并展示了ML在GS中的潜力,有助于加速识别新的抗性资源或品种,降低表型鉴定的时间和成本。

中国农业科学院植物保护研究所研究生刘琪、扬州大学/生物育种钟山实验室左示敏教授为共同第一作者,中国农业科学院植物保护研究所康厚祥副研究员为通讯作者。湖南农业大学李魏教授、中国农业科学院作物科学研究所李慧慧研究员和熊叶辉研究员、中国农业大学杨俊教授、海南大学林润茂副教授、扬州大学冯志明副教授等也参与了数据分析、论文修改等工作。植保所彭莎莎、彭烨博士,作物所张昊博士也为该研究做出了重要贡献。该研究受到国家自然科学基金国际合作项目(32261143468)、国家重点研发计划(2021YFC2600400)、江苏省种业振兴计划(JBGS(2021)001)等项目的联合资助。

posted @ 2024-06-16 11:22  生物信息与育种  阅读(38)  评论(0编辑  收藏  举报