【2022-IRRI综述】基因组预测：水稻改良的进展与前景

目前水稻、小麦和玉米等作物GS应用主要在两个有代表性的国际组织开展，一是国际玉米小麦改良中心（CIMMYT），二是国际水稻所（IRRI），这两个都是国际农业研究协商小组（CGIAR）下属16个国际农业研究中心之一。本文（Genomic Prediction: Progress and Perspectives for Rice Improvement）作为IRRI今年（2022年）发表在Springer出版社Methods in Molecular Biology的其中一个章节，介绍了他们在水稻GS应用（该文主要针对自交系应用，杂交稻应用康奈尔大学的Jennifer Spindel/Susan Mccouch有讨论过）上的总结与展望。与其他学术研究不同的是，他们特别强调了GS在育种计划中的实施，并分享了他们的做法，非常具有实践意义。

摘要

基因组预测可以是一个强大的工具，如果彻底地整合到一个育种策略中，可以实现更高的数量性状的遗传增益率。在水稻和其他作物中，人们对基因组预测的兴趣非常浓厚，有许多研究涉及其使用的多个方面，从概念性的到实践性的都有。在本章中，我们回顾了有关水稻（Oryza sativa）的文献，并总结了在育种计划中整合基因组预测的重要考虑。国际水稻研究所的灌溉育种项目被用作一个具体的例子，我们提供数据和R脚本来重现分析，但也强调了有关预测使用的实际挑战。俗话说："对有锤子的人来说，一切都像钉子"，这句话描述了一个常见的心理陷阱，它有时会困扰一个学科的新技术的整合和应用。我们设计这一章是为了帮助水稻育种者避免这种陷阱，并理解应用基因组预测的好处和局限性，因为它并不总是最好的方法，也不是在任何情况下提高遗传增益率的第一步。

1 引言

植物育种可以被认为是一种数字游戏，育种计划的目的是利用有限的资源增加找到具有理想特征组合的基因型的概率。育种方案是捕捉育种者在一个育种周期内所有活动的概念框架。一个育种周期可以概括为四个主要部分：创造、评估、选择和重组，旨在创造新的变异，准确评估育种种质的性能，并将选定的个体重新组合，形成改良群。评估是育种计划的核心部分，它涉及多个表型步骤，旨在估计选择对象的可遗传价值（或育种价值）。就产量而言，通常在多环境试验（MET）中评估一组针对高遗传性状预选的基因型，旨在代表产品预期表现的目标环境群体（TPE）。在大多数植物育种项目中，评估过程的这些最后步骤需要大量的资源并跨越多年。为了克服这一局限性并提高育种项目的效率，在过去的三十年中出现了一些方法和工具，这在很大程度上是由于DNA多态性和计算能力的提高。其中，利用分子信息推断表型性能的方法（如标记辅助选择和基因组选择）是重要的工具，使现代育种计划能够最大限度地利用其有限的资源。与经典的标记辅助选择相反，基因组预测考虑了大效应和小效应的数量性状位点，从而捕捉到了一个性状的更高比例的遗传变异。

基因组选择的概念是由Meuwissen等人首次为动物育种提出的。在这项模拟研究中，作者根据没有表型记录的幼年动物的分子标记来预测遗传价值，使用前两代的动物来估计标记效应。他们获得了预测育种值（基因组估计育种值-GEBV）的高精确度，并得出结论，这种提高遗传增益率的方法与缩短世代间隔的技术相结合，具有潜力。基因组选择通常是指根据其GEBV（基因组预测）来选择候选者的过程，这些候选者只有基因分型。为了达到这个目的，首先用训练集（一个较小的代表个体集，它尽可能地反映了用于预测的个体的遗传学）对标记-表型关系进行建模，表型和全基因组标记数据都是在该训练集上产生的。为了评估模型的性能，大多数情况下，预测值和观察值之间的相关性是通过验证群体来计算的，验证群体的组成取决于验证策略。该指标通常被称为准确性或预测能力，取决于预测与哪种观察值相比较：育种值比较用准确性，表型比较用预测能力。

2010年代，中高密度基因分型技术的加速发展导致了第一份关于基因组预测在奶牛中实际应用的报告，随后从事农业上重要植物物种的育种者也做出了重要贡献。事实上，基因组预测现在是一个激烈的研究领域，寻求优化其使用并整合到全球的植物和动物育种计划中。我们对影响GEBVs准确性的主要因素的理解已经取得了重要进展，包括育种计划的有效种群规模、目标性状的遗传性和遗传结构、训练种群的规模和组成，以及标记的数量、分布和信息性。基因组预测模型及其在软件工具中的实施也受到了特别关注，以便有效地利用不仅包含在基因组和表型数据集中的所有信息，而且还包含在其他 "全能 "数据源中的信息。虽然人们对预测准确性的驱动因素越来越了解，但如何将基因组预测最好地整合到现有的植物育种策略中，仍然是一个挑战，因为育种计划是在各种各样的背景下运作的（目标性状、物种、资源、规模等）。

水稻（Oryza sativa）是分子生物学的典范物种，也是人类大部分地区的主食。由于绿色革命期间和紧随其后的育种工作，生产力得到了重要的提高。这些改进主要是通过大型分离系谱苗圃的表型选择实现的。分子标记的使用也是引进生物或非生物胁迫的主要等位基因的关键。这一策略的成功在很大程度上取决于所选择的性状（株高、成熟度、抗病性、粒型）的高遗传率和简单的遗传结构，以及O. sativa和密切相关的物种如O. glaberrima（非洲水稻）、O. rufipogon或O. nivara的非常大和特征明确的遗传多样性。这可以解释为什么相对于动物育种或传统的异花授粉作物（如玉米）的育种，全球水稻育种界对实施基因组预测的兴趣被推迟了。在此期间，值得一提的是，在拉丁美洲，通过循环选择策略进行群体改良，取得了一些关键性进展。然而，最近，其他物种产量遗传增益的加速，基因分型成本的降低，以及水稻生产中可持续性的日益重要，促使人们对在水稻育种中部署基因组预测的兴趣增加。

在本章中，我们首先概述了水稻基因组预测的研究，重点是在育种计划中使用该策略的研究。然后我们强调将基因组预测纳入水稻育种计划的重要考虑因素。在第二部分中，我们介绍了诸如确定育种计划中基因组选择的切入点、训练群体的有效设计、缩短世代间隔的策略以及数据管理系统的重要性等方面。在第三部分，我们以国际水稻研究所（IRRI）的灌溉系统育种计划为例，介绍了将基因组预测纳入产品开发计划的情况，并提供了相关数据和R脚本来运行和解释分析结果（可在数据1、2和3中找到）。在最后一部分，我们介绍了基因组预测的有趣进展，这些进展可以进一步帮助水稻育种项目提高其效率。我们本章的目的是为水稻育种者提供一个坚实的基础，使他们了解在育种策略中使用基因组预测的优势和局限性，以最大限度地提高相关性状的遗传增益率。由于近交系水稻在亚洲的大量存在，我们选择将本章的范围集中在自交系亚洲水稻（O. sativa）上，尽管对杂交水稻应用基因组预测的特殊性讨论较少。关于基因组预测对水稻育种的重要性的另一个观点，我们请读者参考Spindel和Iwata和Ahmadi等人的书中章节。

2 水稻的基因组预测工作

关于作物物种的基因组预测的文献非常丰富。2014年以来发表了50多项研究（表1），水稻的基因组预测也不例外。我们报告了大多数在水稻上发表的研究（专门的或与其他物种一起发表的），以强调迄今为止所进行的工作的数量和多样性，以及它们与改进育种策略的相关性。为了实现后者，我们有意强调以与育种计划相结合为重点的研究，这些研究倾向于报告实施过程中更实际的挑战。
表1 关于水稻的基因组预测的研究。

References	Population		Number of		Prediction models	Accuracy
	Type	Size	Traits	Markers
Guo et al.	Diversity panel	413	30	36,901	GBLUP	0.21–0.84
Xu et al.	Hybrids	278–105	4	1,619	GBLUP , LASSO, SSVS	0–0.69
Zhang et al.	Diversity panel	413	11	36,901	GBLUP , BayesB, BLUP\|GA	0.51–0.85
Akdemir et al.	Diversity panel	413	6	36,901	RR-BLUP	0.2–0.8
Blondel et al.	Diversity panel	335	14	1,311	RF, Ordinal McRank, RankSVM, GBRT, RKHS RR, LambdaMART, B-LASSO EB-LASSO, MIX, SSVS, BayesC, wBSR	0.68–0.72
Grenier et al.	Synthetic breeding population	343	4	8,336	B-LASSO, B-RR, GBLUP, RR-BLUP, LASSO	0.12–0.54
Isidro et al.	Diversity panel	413	4	36,901	RR-BLUP	0.22–0.73
Iwata et al.	Two diversity panels	179–386	1	3,254–36,901	GBLUP , RKHS, PLSR, KPLSR	0.4–0.64
Onogi et al.	Cultivars	110 –	8	3,102	GBLUP , RKHS, LASSO, Elastic net, RF, B-LASSO, EB-LASSO, BSR	0.40–0.84a
Spindel et al.	Breeding lines	332	3	73,147	RR-BLUP, B-LASSO, RKHS, RF, MLR, PBLUP	0–0.63a
Bustos-Korts et al.	Diversity panel	413	3	26,259	GBLUP , QGBLUP, RKHS	0.28–0.81
Jacquin et al.	Breeding lines and diversity panel	230, 167 and 188	15	22,691- 16,444- 38,390	LASSO, GBLUP, SVM, RKHS	0.12–0.70
Onogi et al.	Mapping population	174	1	162	EB-LASSO, EB-LASSO + crop model	0.87–0.97
Spindel et al.	Breeding lines	332	3	58,318	GBLUP , RR-BLUP, B-LASSO, RKHS, RF, MLR	0–0.65a
Campbell et al.	Diversity panel	360	1	36,901	GBLUP	0.39–0.73
Gao et al.	Breeding lines	315	3	58,227	GBLUP (10 relationship matrices)	0.24–0.57
Matias et al.	Breeding lines	270	2	39,915	B-RR, BayesB, B-LASSO	0.26–0.42
Morais et al.	Synthetic breeding population	174	8	6174	GBLUP (5 relationship matrices)	0.31–0.68
Wang et al.	Hybrids	575	8	3,299,150	GBLUP (univariate and multivariate)	0.40–0.86
Xu et al.	Hybrids	1495	10	1,654,030	GBLUP	0.40–0.88
Ben Hassen et al.	Diversity panel Breeding lines	284 and 97	3	43,686	GBLUP , RKHS (univariate and multivariate)	−0.12 to 0.96
Ben Hassen et al.	Diversity panel Breeding lines	284 and 97	3	43,686	GBLUP , RKHS, BayesB	0.23–0.65
Campbell et al.	Diversity panel	357	1	33,674	GBLUP	0.4–0.89
Du et al.	Mapping population	210	4, 1000, 24,973	1,619	RR-BLUP, PCR, PLSR	0.12–0.76
Gao et al.	Breeding lines	315	3	58,227	GBLUP (7 relationship matrices)	0.24–0.56
Mathew et al.	Diversity panel	371	1	36,901	GBLUP (multivariate)	0.49–0.77
Monteverde et al.	Breeding lines	309 and 327	5	44,598 92,430	GBLUP , RHKS (multivariate)	0.30–0.88
Morais Júnior et al.	Synthetic breeding population	174	8	6174	ABLUP, GBLUP, AGBLUP HBLUP, BayesC, B-LASSO, PLSR, RF, RKHS	0.23–0.76
Morais Júnior et al.	Synthetic breeding population	667 and 174	3	6174	Bayesian HBLUP (multivariate with environmental covariates)	−0.15 to 0.9
Xu et al.	Hybrids	575	8	2,561,889	GBLUP , PLSR, LASSO, BayesB, SVM, RKHS	0.15–0.88
Yabe et al.	Cultivars	123	1	42,508	GBLUP , PLSR	0.22–0.53
Arbelaez et al.	Breeding lines	353	3	965	ABLUP, RR-BLUP, BayesA, BayesB, BayesC, B-LASSO, RKHS	0.36–0.71
Azodi et al.	Breeding lines	327	3	73,147	RR-BLUP, B-RR, BayesA, BayesB, B-LASSO, SVM, RF, GTB, ANN, CNN	0.25–0.65
Berro et al.	Breeding lines	317 and 327	1	44,598 92,430	GBLUP	0.37–0.80
Bhandari et al.	Diversity panel	280	3	215,242	GBLUP , RKHS	0.23–0.81
E Sousa et al.	Breeding lines	270	2	39,811	GBLUP , RKHS	0.18–0.31
Frouin et al.	Diversity panel Breeding lines	228 and 95	2	22,370	GBLUP , BayesA, RKHS	0.23–0.54
Guo et al.	Hybrids	1439	4	1,654,030	GBLUP	0.59–0.77a
Hu et al.	Mapping population	210	4, 1000, 24,973	1,619	Multilayered-LASSO	0.16–0.76
Huang et al.	Diversity panel	161 and 162	1	66,109 29,030	RR-BLUP, GBLUP (multivariate), BayesA, BayesC	0.15–0.80
Lima et al.	Diversity panel	370	7	36,901	GBLUP , Delta-p	0.27–0.83
Monteverde et al.	Breeding lines	309–327	4	44,598 92,430	GBLUP , PLSR (multivariate environmental covariates)	0.10–0.90a
Ou et al.	Diversity panel	404	10	30,315	RR-BLUP	0.09–0.78a
Suela et al.	Diversity panel	352	9	36,901	Delta-p, GBLUP, BayesC, B-LASSO	0.10–0.83
Wang et al.	Hybrids, mapping population	210 and 278	4, 1000, 24,973	1,619	LASSO, GBLUP, SVM, PLSR	0.1–0.70a
Wang et al.	Hybrids	575	8	61,836	GBLUP	0.07–0.15
Baba et al.	Diversity panel	357	2	34,993	Random regression (univariate and multivariate)	0.17–0.91a
Banerjee et al.	Breeding lines	315	3	73,147	RR, LASSO, SVM, Bagging, RF, AdaBoost, XGBoost	0.10–0.67
Cui et al.	Hybrids	1495 and 100	10 6	102,795	GBLUP (multivariate)	0.35–0.92
Grinberg et al.	Diversity panel	2265	12	101,595	LASSO, RR, GBLUP, GBM, RF, SVM	0.14–0.70
Jarquin et al.	Cultivars	112	1	408,372	GBLUP	0.41–0.93
Schrauf et al.	Diversity panel	2018	1	4,000,000	GBLUP (3 relationship matrices)	0.16–0.83a
Toda et al.	Mapping population	123	1	315	GBLUP , LASSO, RR, RKHS, RF (integration with crop model)	0.40–0.68a
Xu et al.	Hybrids, mapping population	210 and 278	4, 1000, 24,973	1,619	GBLUP (different relationship matrices)	0.20–0.80a

2.1 总体概述

第一批报告使用水稻基因组预测的研究是在2014年发表的（表1）。尽管水稻有丰富的基因组和标记资源，但这些研究竟然是在玉米、小麦或大麦的第一个基因组预测研究（使用真实数据）发表后5年进行的。迄今为止，水稻可用的基因组资源的广度和已被表征的遗传多样性的深度，导致发现了许多具有合理效应大小的主要QTL。尽管对水稻育种界来说，这是一种独特而宝贵的资源，但对外来种质的大效应QTL的发现、表征和引进的高度重视，可能会推迟向基因组预测的过渡。这些早期的水稻基因组预测研究中评估的种群类型倾向于加强这种印象（图1a）。事实上，在2014年发表的前三项研究中，有两项是基于相同的多样性panel，一项是基于从作图群体（永生F2）衍生的杂交种。总的来说，在许多情况下，为关联研究而设计的多样性panel在迄今发表的研究中占很大比例（图1a）。对于这些研究中的大多数，其目的是方法学上的：了解种群结构的影响，整合关于性状遗传结构的现有知识，训练集优化，模型比较或整合作物模型而不直接影响育种计划。鉴于水稻的祖先亚种群结构的程度，使用多样性panel来评估基因组预测模型可能会引起预测能力估计的偏差。事实上，如果不考虑种群结构，大部分的预测能力可能来自于亚种群之间的预测能力，而不是亚种群内部的预测能力。除基于多样性panel的研究外，16项研究使用了育种系，9项研究侧重于杂交种，6项研究使用了定位群体，4项研究基于合成群体，3项研究使用了栽培品种（图1a）。

图1 关于水稻基因组预测的文献摘要。它代表了表1中详细的信息。(a) 用于训练基因组预测模型的种群类型的树状图，以及基于已发表数据集的研究的相关参考文献。(b) 数据集的重要特征直方图：种群的大小、表型性状的数量、测量性状的环境数量（年份、季节或地点），以及用于基因组预测的分子标记数量。(c) 54项研究中使用最多的10个预测模型的圆圈图。(d) 用于评估预测模型准确性的验证策略的圆图：交叉验证（CV）、HAT方法、组内验证和后代验证。

除了在这些研究中遇到的各种各样的种群外，种群的规模、标记的数量、表型的数量或用于描述种群特征的环境的数量也有很大差异（图1b）。最大的种群规模（2265）是利用3000水稻基因组计划的公开数据实现的。鉴于收集高质量表型数据的局限性和困难，可以理解的是大多数研究采用了300左右的种群规模（表1）。在使用1000或2000个个体的大群体的情况下，表型是在非常有限的环境中进行的（通常是1或2个）。事实上，不到一半的研究使用了三个以上的环境进行表型评价（图1b）。在有10个或更多环境（年份、季节或地点）表型信息的三项研究中，有两项是基于育种计划的种质，但数据集是不平衡的（并非所有个体在所有环境中都有表型或基因分型）。第三项研究来自Jarquin等人，使用来自51个环境的信息，结合日长来预测未经测试的基因型的发芽天数。在考虑的各种性状中，开花期（或成熟期）、株高和谷物产量是最常见的。标记的数量从162个到400万个不等，大多数的研究使用几千个标记（表1）。通过测序和固定SNP芯片的基因分型是最常用的技术。在某些情况下，通过一般低覆盖率（1×或2×）的全基因组再测序，然后进行填充，可以获得非常高的标记密度。

基因组预测的统计方法是许多研究的核心，在所有的物种中都得到了应用。在54项水稻研究中，评估了33种不同的方法，其中基因组最佳线性无偏预测（GBLUP）方法使用最多（图1c）。自该方法提出以来，其灵活性和稳健性使其迅速成为动物和植物育种的参考方法。与传统的系谱BLUP类似，GBLUP使用一个基于标记的加性关系矩阵，而不是系谱信息。这种加性模型的一些扩展或变体已被提出，以说明显性和/或上位性，或使用其他多组学数据（转录组或代谢组）来估计个体间的相关度。除GBLUP外，RKHS（再生核希尔伯特空间）、贝叶斯LASSO（最小绝对收缩和选择算子）、RR-BLUP（岭回归BLUP）、RF（随机森林）、SVM（支持向量机）、PLSR（偏最小二乘回归）、BayesB和BayesC是这些水稻研究中使用最多的方法（图 1c）。来自机器学习的其他方法，如梯度提升机（GBM）或人工神经网络（ANN），也在基因组预测方面进行了评估，结果不一。

验证集的组成在决定预测的准确性方面可以发挥重要作用，它在很大程度上取决于每个研究中使用的验证策略（上表删除，见原文）。Sallam等人根据训练集和验证集的组成，定义了三种主要的验证方法：交叉验证（子集验证）、interset验证和progeny（后代）验证。交叉验证或子集验证（k-fold、留一、随机或分层抽样）是迄今为止我们总结的所有研究中使用最多的策略（图1d）。这种验证方法非常方便，因为你只需要将数据划分为训练集和验证集，就可以在没有 "独立 "数据集的情况下估计准确度（如需要进行interset或progeny验证）。由于其性质，与更现实的验证场景相比，交叉验证往往会高估预测的准确性。当使用多变量模型时，情况变得更加复杂。另一种接近交叉验证的方法，即HAT方法，在四项研究中被使用。这种方法以随机效应的hat矩阵为基础，使用预测的残差平方之和来估计预测的准确性，在GBLUP 、RKHS和贝叶斯模型的背景下工作。这种方法比交叉验证法要快得多，因为不需要额外的模型再训练。interset和progeny验证方法只在三项研究中分别使用（图1d）。考虑到育种计划的背景，基因组预测的整合主要是为了减少周期时间，后代验证代表了对预测模型性能的更有意义的评估。事实上，在基因组选择的最初概念中，Meuwissen等人使用了progeny验证：用1001代和1002代的数据建立模型，用预测值和1003代的真实育种值计算准确率。此外，由于后代中的重组，标记和QTL之间发生的连锁不平衡的衰减往往会降低预测的准确性，但在应用于实际育种的情况下，使其更具有现实的可解释性。例如，Ben Hassen等人用有限的个体数量对近交系进行后代验证，发现对相同性状的预测能力比交叉验证低。

2.2 水稻基因组预测的重要发现和目前的局限性

2.2.1 重要的研究结果

表1提供了本综述中每项研究的主要目标的简短摘要。因此，读者可以被引导到与它问题最相关的出版物。此后，我们总结了重要的结果，主要集中在那些与育种计划的实施最相关的结果。

基因组预测在不同情况下的作用。所有研究中最重要的结果是，基于分子标记的性能预测是有效的。事实上，GEBVs的准确性相对较高，即使是像粮食产量这样的性状。许多水稻育种者关注基因组预测的效率，但从有关水稻的文献来看，更确切地说，使用育种种质的研究，显然是没有道理的。
预测精度可以提高。育种者可以发挥不同的因素来提高预测的准确性或减少实施的成本。事实上，通过优化训练集的组成和评估，通过瞄准信息丰富的分子标记（具有中、高最小等位基因频率的多态性并沿基因组分布），或通过整合额外的数据（历史、环境协变量、作物模型...），可以获得更好的准确性。训练集的大小和组成决定了与选择对象的遗传关系的强度，这是驱动准确性的最重要因素之一。因此，已经开发了选择训练集的算法。关于分子标记，不同的研究表明，标记密度在一定程度上可以减少而不影响预测的准确性。例如，Arbelaez等人设计了一种具有成本效益的SNP检测方法，只选择了1000个在精英育种材料中具有信息量的标记，并获得了良好的准确性。
模型可以预测子代的表现。基因组选择的最初概念是基于对子代育种价值的预测，目的是减少育种周期的时间。对水稻进行后代验证的极少数研究表明，当使用父母本的信息来预测后代的表现时，会有很好的结果。然而，在这个方向上还有更多的工作要做，因为与基因组预测整合有关的遗传增益的增加大多与育种周期时间的减少有关。
基因组预测在杂交的情况下是有效的。有关标记密度、训练集识别和模型选择的许多经验同样适用于杂交种和自交系育种计划。杂交种计划确实提出了独特的挑战，可以应用不适用于其他育种计划的预测。值得注意的是预测如何将雄性和雌性结合起来以创造优良的杂交组合。在杂交水稻中，有一些证据表明，杂交性能是由来自雄性和雌性品系的加性遗传学的累加所驱动。将非加性参数纳入预测似乎没有什么帮助。虽然这似乎是合理的，但其他作物也显示出杂交性能有明显的非加性成分（如在玉米中）。这个特殊的结论可能是由于遗传基础非常狭窄，对谷物产量的组内预测精度非常低而产生的偏差。也有证据表明，多性状模型可以提高杂交水稻低遗传率性状的预测精度。这在杂交水稻中特别重要，因为许多性状（特别是商品成本性状，如杂交种子产量）在育种计划的早期特别难以测量。与杂交计划相关的一组特别独特的相关表型是有机会测量自交系亲本的本身表现以及同一材料的杂交表现。使用亲本表型数据与杂交种性能的数据相结合，可以将杂交水稻产量的预测精度提高约13%。
建立GxE模型可以提高预测的准确性。无论是通过多环境基因组预测模型，还是通过结合作物生长模型和基因组预测模型，一些研究证明了这些方法在预测环境特异性能方面有更好的准确性。在多环境模型的情况下，与传统的表型选择相比，基因组选择的一个关键优势是模型能够评估标记效应和标记效应与环境的相互作用，并最终提高预测精度。随着作物生长模型在基因组预测框架中的整合，基因型对环境变化的反应被模拟出来，从而可以预测候选品种在未测试环境中的表现。这种方法对水稻改良非常有希望，因为它更好地考虑了GxE。然而，在育种计划中常规使用作物生长模型需要在数据采集和分析方面进行大量的投资，因此对于容易受到环境限制的特定水稻系统来说将是很有意义的。
基因组预测模型之间的差异是很小的。大多数比较基因组预测的统计模型的研究发现，它们之间在准确性方面的差异很小或没有差异。一般来说，没有一个模型对所有的性状或验证方法都是持续较好的。GBLUP由于其简单性、包括不同类型信息的通用性和对不同性状结构的稳健性，通常被用作参考。贝叶斯模型（如B-LASSO、BayesB或BayesC）或RKHS在处理受大效应基因影响的性状（如开花期或抗稻瘟病）时表现更好。少数使用机器学习方法（如ANN或SVM）的研究报告了令人失望的结果，即使对参数进行了优化，性能也很不稳定。可能需要在这个方向上做进一步的工作，以得出这些方法对常规基因组预测的兴趣。

2.2.2 目前的局限性

尽管研究的数量和多样性，但在有关水稻的文献中仍有一些问题没有被很好地涉及。根据不同的情况，它们可能会对充分利用基因组选择的潜力造成限制。

仅有准确度不足以评估基因组预测的有效性。几乎所有的研究都是根据预测的准确性来评价基因组选择的。尽管准确度是评估预测模型效率的一个重要因素，但它并不能告知哪些个体被不同的方法所选择。realized selection differential （实现的选择差异？？）可能是比较不同基因组预测方法的一个更好的指标，因为育种家会共同考虑几个性状来优化材料，这使得对性状的单独评估变得不那么相关。最后，正如Bassi等人正确指出的那样，表型也只是真实育种值的一个预测因子，并且和GEBV一样有一个误差方差。
没有充分考虑家系内预测的准确性。没有关于水稻的研究使用多个双亲家庭或父母信息作为训练集，详细研究了家庭内预测的准确性。事实上，除了使用一个双亲家族的研究这一特殊情况外，关于家族内准确性的报告很少。这在杂交文献中也很明显，大多数论文集中在预测特定的杂交组合上，而没有试图估计新的雄性或雌性群体的一般结合能力。然而，当涉及到实施基因组预测时，这是一个关键点，因为更高的家族内准确性有助于提高遗传增益率，同时平衡种群中的近亲繁殖水平。由于家族内和家族间的变化都被模型捕捉到，所以杂交之间的差异可以得到更好的预测。
谷粒品质或抗病性状被忽略了。迄今为止，没有发表与抛光谷物的营养价值（锌含量、血糖指数...）有关的研究。只有一项研究评估了基因组预测的潜力，以帮助利用育种降低谷物中的砷含量。关于抗病性，Huang等人的唯一研究报告称，预测对几种木兰花菌（瘟疫）分离株的抗性的准确率为0.15至0.72。对于抗病性，水稻遗传学家主要关注主要基因，但针对定量变异也很重要，以解决绕过抗病性等问题。对于谷物的营养价值，利用多性状基因组预测可以更好地解决性状之间的负相关。
在育种计划中的实施是次要的。虽然很明显，所有研究的基本目标是提高我们对基因组预测的认识，以优化育种策略，但很少有研究将其发现放在育种计划的具体案例中。例如，Spindel等人建议将基因组预测整合到灌溉水稻育种管道中，并讨论了这种方案的优势和限制。然而，对于大多数从事育种种质的研究（见表1），情况并非如此。因此，这些结果仍然是理论多于实践，因为这种分析对于证明在基因组选择方面的投资和了解其实施的潜在障碍非常重要。

3 将基因组预测纳入水稻育种计划：关键点

水稻育种计划中基因组选择的切入点会因计划的目标、现有的育种策略、育种者必须考虑的遗传和/或环境限制、以及基因分型和选择中的性状的成本而不同。然而，在整合一个育种计划实施基因组预测的准备工作之前，有一些关键的先决条件需要评估。如果缺乏必要的组成部分，如（a）明确的目标，（b）细致的数据管理，（c）有效的操作，（d）有效的表型和（e）基于BLUP的选择，基因组预测的应用是非常有限的。使用育种数据或专门设计的训练集执行基因组预测，对于建立做预测的基线能力是有用的，但将该技术整合到现有的育种计划中可能是一个挑战。育种计划代表着多年的流水线，管理着重叠的种质群，所以改变策略往往是逐步进行的，以免扰乱产品开发的过程。本节的目的是就在水稻育种计划中实施基因组选择策略前需要考虑的重要因素提供指导。

3.1 绘制育种策略图

基因组预测的主要价值在于其在决策中的使用，以便在育种计划的一个或几个阶段有效地选择育种材料。因此，对育种策略及其不同组成部分的清楚了解是有效整合基因组预测的基础。通常情况下，育种方案存在于育种家的头脑中，将这种知识转化为结构化的框架是精心设计替代方案的一个强制性步骤。基因组预测是育种方案的长期投资，直接过渡到最佳基因组选择策略并不总是可能的。因此，需要由育种团队和专家详细制定过渡计划，以确定实现目标的明确步骤。在有关基因组预测的文献中通常没有这方面的报道，因为这涉及到有关育种计划的更多技术信息。在水稻方面，只有一项研究将结果置于育种计划的框架内，并详细介绍了基因组预测的使用及其潜在影响Jennifer Spindel et al. PLOS Genetics, 2015。然而，正如在小麦中所显示的那样，育种方案的这一步骤对于整合或优化基于过去几年中所获得的知识的基因组选择至关重要。

最佳的基因组选择方案通常不是当前育种方案的简单演变。水稻和一般自花授粉作物的大多数常规育种方案都依赖于系谱育种，但基因组选择最适合于基于优良杂交的轮回选择方案，以改善复杂的性状。事实上，一个结构良好的育种计划，其优良种质已被明确鉴定，且有效种群规模较小（Ne≈40），由于标记和QTL之间的连锁不平衡度较高，种群结构较低或没有，以及基因型之间的关联度较高，更有可能从使用基因组预测中受益。此外，要充分利用基因组预测，还需要几个重大变化：减少周期时间，建立训练集，存储/使用表型和基因型数据，重新分配预算和人员。了解这些变化之间的相互联系，以及它们将如何影响当前的操作顺序，可以预见潜在的障碍。

关键建议：

明确界定当前的育种战略及其目标。
将基因组预测的整合作为一项长期投资进行规划，并有明确的路线图。
在优良种群中使用轮回选择，最大限度地发挥基因组预测的潜力。

3.2 减少周期

基因组选择的一个有趣方面是，它使植物育种界更加关注育种的基本原理。育种家方程中捕捉到的对选择的反应的概念也许是最好的例子。在该方程的参数中，世代间隔（或周期）是最容易理解和操作的。正如Meuwissen等人在其开创性的论文中所强调的，使用基因组预测可以通过减少周期时间来大大增加遗传增益率。结论是，根据标记物预测的遗传值进行选择可以大大增加动物和植物的遗传增益率，特别是如果与繁殖技术相结合，缩短世代间隔。这一结论在15年后被第一份关于基因组选择对奶牛遗传增益率影响的报告所证实。作者发现，世代间隔的急剧缩短与产量性状的遗传增益率的急剧增加有关（50-100%）。在植物育种中，缩短周期的方法（独立于使用基因组选择）已经研究了几十年。尽管最近提出了更多的现代方法，但在农作物物种中，快速世代进展（RGA）或双倍单倍体可能是最常见的。在水稻中，RGA最近重新引起了人们的兴趣，因为它是快速固定材料（通常在1年内从F2到F6）的一种具有成本效益的方法，可以在重复试验中进行评估。这可以在温室、屏风房或田间实现，取决于可用的资源。对于从事经典系谱育种计划的育种家来说，使用RGA可以作为实施基因组选择的第一步。对于已经实施RGA或类似方法来缩短周期的育种计划，基因组选择可以进一步帮助缩短育种周期。然而，这需要一个能有效预测下一代（后代）遗传价值的基因组预测模型。因此，在实施这种类型的计划之前，必须构成一个基于一个或几个以前周期的材料的训练集。基于轮回选择的更积极的策略也是如此，其目的是重新组合仅根据预测值选择的非固定材料（S0）。在这种方案中，种群改良部分与产品开发部分部分脱钩，允许1年甚至更短的育种周期。目前，只有模拟研究报告了这种类型的方案，因为在实施之前必须解决若干技术挑战。事实上，育种周期时间的急剧减少可能导致过渡期内不同周期之间的重叠活动，可能会扰乱正在进行的周期或大幅增加工作量。

主要建议：

将基因组预测与稳定的方法结合起来，产生自交系（如快速加代），以有效减少周期时间。
在基因组预测路线图中考虑到与缩短周期相关的技术限制因素。

3.3 设计训练集

一旦确定了育种计划中基因组预测的切入点，训练集的设计就是实施基因组选择的第一步。关于训练集必须做出三个主要的选择：组成大小、表型和基因分型。育种家必须在这三个方面找到一个平衡点，以便根据可用资源优化训练集。大多数育种项目开始的一个简单方法是开始对进入产量试验的每个品系进行基因分型。从那里，这些数据集可以根据经验进行优化，以提高预测的准确性。

众所周知，准确性随着训练集的大小而增加。理论和经验研究表明，在处理复杂性状时，训练集的大小应最大化。然而，主要由于基因分型和表型的成本，大型训练集并不总是可行的。为了实现高准确度，同时将规模保持在可管理的范围内，开发了几种优化训练集组成的方法。所有这些方法都使用加性遗传关系（通常基于标记数据）来对一组有代表性的基因型进行优化采样。训练集优化的一个关键方面是对预测集（候选群）的定义。事实上，训练集和候选群体之间的密切遗传关系是最大限度地提高预测准确性的关键。因此，大多数优化方法都是共同考虑构成训练集和预测集的基因型，以直接计算基于关联性的标准（训练集和预测集之间关系系数的平均值）或估计基于混合模型理论的标准（预测误差方差、决定系数或预期精度）。在训练集和预测集来自同一种群（例如，来自同一队列的候选群）或预测个体的信息尚未获得（例如，后代）的情况下，已经开发出优化方法，以最小化训练集个体之间的遗传关系。根据数据的可用性和预测目标，育种者可以在这些优化方法中选择塑造训练集，并在需要预测新周期的候选群时更新训练集。

训练集组成的优化必须与表型分析策略结合起来进行。在大多数情况下，将用于更新预测模型的候选品种在MET中被评估为关键性状，以估计G×E。由于可用于评估的地块总数几乎是固定的，育种家需要平衡群体大小和重复水平（在环境内和环境间）。通常情况下，在育种周期中重复水平会增加，以便在最后阶段将更多的资源用于少数更有希望的品系。在基因组选择的背景下，评价单位是等位基因而不是个体，在减少重复水平的同时增加训练集的大小，往往会提高预测的准确性。因此，在经典的完全重复的实验中，典型的训练群体规模（150-300）的表型可以乘以1.5-3的稀疏测试。然而，最好在环境内和环境间有足够水平的重复，以便：（1）保持重复性，特别是对低遗传率性状；（2）评估G×E的水平；（3）避免重复太少的模型收敛问题。当种子供应受到限制时，使用稀疏测试方法对重复的限制也可以是一个好机会。

最后，需要仔细考虑用于对训练和预测集进行基因分型的技术，以便有效地捕获不同的QTL等位基因以及群体中的一般亲缘关系。在选择或开发适当的基因分型技术时，有几个因素起作用：成本、标记的类型、密度、目标群体的信息量、可重复性率等。在应用基因组预测的情况下，对育种计划所管理的遗传多样性进行良好的定性，对于确定达到最佳预测精度所需的标记密度至关重要。用确定性和随机性模拟表明，当有效种群数量增加时，标记密度必须增加以保持准确性。然而，大多数水稻的实证研究发现，对于有效种群规模低于50的育种项目，当标记密度超过每厘摩根2-5个标记时，准确性达到了一个高峰。

主要建议：

在可能的情况下，最大限度地提高训练集和预测集之间的关联性。
使用稀疏的表型测试，以平衡训练集的大小和可用资源的水平。
避免使用一个育种流水线的训练集来预测另一个育种流水线的候选群。

3.4 生成和整合高质量的数据

正如前面所强调的，数据采集和管理是育种计划的重要组成部分。所有的推进决策都是基于来自多个来源（田间、实验室、服务提供者等）的记录数据。从种子到表型和/或基因型的仔细数据管理必须到位以确保准确性。使用数字数据收集工具是尽可能减少数据收集过程中可能出现的错误的一个关键方法。令人担忧的是，已经用模拟数据证明，即使是表型记录中很小比例的严重错误（0.1%或1%）也会严重降低对选择的反应。当系谱记录中存在错误时，也发现类似的结论。除了准确的数据，还需要强大的和适当设计的分析管道来策划数据并将其转化为可解释的信息。与传统的标记辅助选择相比，基因组预测增加了一层复杂性，因为它可能需要整合几年来收集的不同类型的数据（表型、基因型、系谱和/或天气数据）才能发挥作用。数据类型和格式的一致性以及数据结构的长期稳定性是充分利用历史育种数据的力量来训练和持续更新基因组预测模型的关键环节。

为了帮助育种者进行数据管理，不同的公共组织都有软件解决方案，如育种管理系统Breeding Management System（https://bmspro.io）、Breeding4Results（B4R）（https://riceinfo.atlassian.net/wiki/spaces/ABOUT/pages/326172737/Breeding4Results+B4R）、Breedbase（https://breedbase.org），或GOBii基因组数据管理（https://gobiiproject.atlassian.net/wiki/spaces/GD/overview）。尽管在开发分析管道（如RiceGalaxy，https://galaxy.irri.org）和旨在实现植物育种数据库之间互操作性的育种API项目（https://brapi.org）方面做出了重大努力，但在应用育种计划的背景下，没有有效的端到端解决方案可供执行基因组预测的公开。事实上，在现有的实施基因组预测的软件中存在一些限制，包括缺乏基因型和表型数据之间的直接联系，有限的多环境或多性状分析能力，没有可能将显性或上位性效应纳入预测模型，以及没有将天气数据有意义地纳入分析管道。因此，大多数公共育种项目从他们各自的数据管理软件中提取表型和基因型数据，并使用特别的分析管道来运行基因组预测模型。希望像育种API或企业育种系统（https://ebs.excellenceinbreeding.org）这样的项目能在不久的将来在一个旨在实现应用育种项目的连贯框架内提供这些可能性。

关键建议：

尽可能地使用数字数据收集系统。
与数据管理系统和高效的基因组预测分析程序合作（GBLUP , RR-BLUP）。
多年来使用一致的基因型和表型数据结构，以促进数据整合。

3.5 考虑到成本问题

将基因组选择纳入育种计划是一项长期投资，必须转化为更好的遗传增益率才值得实施。即使使用基因组选择的优势很明显，但相对于遗传、操作和成本限制，最佳的育种方案也不容易确定。在确定了什么是最优的目标后，需要以预算友好的方式转换为这种新策略，这可能是加强现代育种计划的最重要限制。然而，有几个杠杆可以用来解放旨在全面部署基因组选择的计划中的资源。

第一个杠杆与表型有关。由于有了基因组预测，一些表型分析的步骤可以减少甚至取消，节省了相关的费用。事实上，这是基因组预测的主要优势之一，如果有合适的数据结构，就可以减少周期时间和表型成本。在计划整合基因组预测时，应仔细评估表型分析的成本和用预测取代表型分析活动的可能性，因为有时可能需要修改育种方案。这方面的一个关键例子是在从传统的纯种育种计划过渡时产生的成本节约，在传统的纯种育种计划中，固定步骤（F2-F5）中发生的选择可以推迟到自交系提取之后，用更便宜和更快的基于SSD的RGA方法代替基于田间的纯种圃。在这个层面上节省的成本可以很容易地覆盖基因分型的成本，因为通过RGA推进材料的成本要低得多（每个F5/F6系大约1美元）。但是，各组织必须考虑多年的预算战略，以适应如果不能利用现有的温室设施进行这项活动可能产生的固定成本。最初的资本投资通常可以通过几年内减少的运营成本来支付。此外，各组织必须考虑到由于伴随着育种周期的缩短和选择精度的提高，遗传收益的增加而可能产生的额外资金。

另一个收回成本的直接方法是通过使用基因组预测来减少昂贵的表型分析工作的数量。这可以通过选择性地对试验中精心选择的子集进行表型分析，以获得昂贵的性状，如谷物生物化学或其他收获后的性状，并利用节省的成本来支付DNA指纹的费用。此外，开发一个高通量相关性状的指数，与目标性状相比，其测量成本可能较低或提供更高的通量，可以降低表型的成本并提供类似的准确性。在这种情况下，多性状基因组预测提供了一个理想的框架，以整合相关性状，最大限度地提高预测精度。

第二个杠杆与基因分型有关。在作物育种项目中，选择基因分型技术来描述育种种质（训练和预测集）主要是由每个样品的基因分型成本驱动的（而不是真正由每个数据点的成本来体现）。事实上，使用现有工具（通过测序进行基因分型或固定SNP阵列）的每个样本的成本往往太高，无法在公共育种计划中常规使用。在中小型育种项目中，为了评估足够数量的个体，每个样品的成本必须在10美元左右或更少。在这个价格范围内，目前可以锁定的位点数量大约为1000-5000个SNPs。从长远来看，保持成本下降的一个选择是设计一个定制的基因分型检测，选择的SNP在目标育种群体中具有特殊的信息性。这将是一个比GBS或公共固定阵列更便宜的选择，并允许在基因型数据集中有更高密度的信息内容。定制的SNP panel还有一个额外的好处，即除了包含在该组中的全基因组标记外，还可能调查与育种计划相关的特定性状标记，从而允许对不一定优先用于MAS的已知等位基因的品系进行更广泛的QTL分析。事实上，根据基因分型服务提供者的能力，通过结合MAS和指纹鉴定来节省取样和DNA提取成本也不是没有道理的，比如用少数用于MAS的标记对群组进行筛选，然后将所选品系的DNA重新排列到一个新的平板上进行全基因组指纹鉴定。

通过使用低覆盖率的GBS，也可以实现低的基因分型成本。鉴于当测序深度降低时，GBS的局限性（数据缺失率高，杂合子位点的错误率高），这种方法不会有效地捕获杂合子位点，必须用于固定系的基因分型，再加上基于系谱中祖先系的高质量序列数据的高效填充框架。因此，这需要生物信息学方面的专业知识和获得高性能计算资源。

主要建议：

考虑减少表型步骤的数量，只对试验的一个子集进行表型，或使用更便宜或更高通量的相关性状。
设计一个基因分型平台，该平台有一套专门为育种计划中管理的种质而选择的标记，并在服务供应商处部署。

4 IRRI灌溉系统育种计划的例子

在此，我们给出了一个在积极的水稻育种计划中整合和使用基因组预测的实际例子。最近IRRI重新设计的灌溉系统育种计划为了解使用基因组预测的应用育种计划的关键因素提供了一个理想的背景。事实上，该计划以东南亚、南亚和东非为主要干预区域，代表了早期育种工作的直接衍生，导致了亚洲的绿色革命。因此，它最好地体现了为生产兼具高产潜力和适应不同环境条件的材料而做出的努力。

4.1 从系谱育种到轮回基因组选择的转变

基因组选择在IRRI育种项目中的应用分为两大类：组内预测（全同胞和半同胞预测其他全同胞和半同胞），以优化我们的测试策略；跨组预测（祖母和母亲预测女儿和孙女），以加速我们的育种周期，这两种方法都需要改变育种策略。首先，最重要的是，这两项应用都需要低成本地部署一种基因分型技术，以便对育种材料进行常规指纹鉴定。这个标记集（称为1k-RiCA扩增 panel）最近被开发出来，并填充了在我们的种质中具有特别信息的标记。公开的固定芯片基因分型技术不能很好地实现这一目的，因为这些芯片上的许多标记是为了在全球范围内区分种质而选择的，而且通常非常昂贵，多态性相对较少（或者更糟糕的是有偏好性的）。

随着标记panel的到位和在服务提供商处的部署，从近期来看，基因组选择最有用的应用是允许根据目标环境中的表现进行选择，而不是取决于与菲律宾环境（IRRI的总部所在地）对选择的相关反应。目前，该计划的资源每年产生约2000个新品系的第一阶段产量试验。由于IRRI的所有产量试验都是由国家农业研究伙伴进行的，在非洲、南亚和东南亚的多地产量试验中测试2000个品系的能力极其有限。到目前为止，早期的育种材料是根据在菲律宾的表现来选择的，少量的先进品系被送到区域地点进行测试和评估（图2）。采用全同胞和半同胞的基因组选择，以实现基于目标环境的直接选择，避免需要依赖间接选择。通过选择一个优化的队列子集并将其送到感兴趣的地区进行测试，来自感兴趣的特定地区的表型数据可用于预测其余队列在该地区的表现。通过这种方式，整个队列在某处接受测试，但没有一个个体在所有地方接受测试，因此可以向合作伙伴发送适合其独特条件的优秀品系的进展。然而，要做到这一点，需要找到资金来对每年约2000个新品系的整个队列进行指纹鉴定。为了使这种形式的基因组选择不增加成本，人们注意到菲律宾的测试策略是对品系进行3年的测试（图2，前方案）。通过取消中间的测试阶段并选择一组特定区域的品系进行预先测试，可以回收足够的资金来支付指纹鉴定的费用。

图2 IRRI以前、现在和未来的灌溉系统的育种计划。这些计划之间的演变特点是基因组预测（GP）的整合和育种周期的缩短。基因组预测用红色表示，并附有在该地区进行表型分析以更新模型的相关个体数量。步骤的颜色与活动的地点相对应：菲律宾为绿色，有合作伙伴的地区为黄色。年份和季节（WS：雨季，DS：旱季）在左边表示。右边的数字表示每个步骤的人口规模。黑色粗箭头表示将最佳品系作为亲本回收。MAS：使用10-20个主要与抗病性有关的性状标记进行标记辅助选择。INGER：由IRRI领导的国际水稻遗传评估网络。

对该计划具有更长期价值的基因组预测应用是实现跨组群预测，以便在区域测试之前将每个区域的优良品系回收到育种管道中，从而加速育种周期（图2，未来方案）。然而，这种预测需要一个更强大的、多年的数据集，包括祖先品系的区域表型数据，因为在需要进行预测时，来自新出现的候选品系的全同胞和半同胞的表型数据是不可用的。随着基因组预测的首次应用，该计划现在已经准备好开始生成预测新亲本所需的区域特定表型观察的多年期数据集。然而，为了使这种预测成为可能，需要对杂交策略进行更有针对性的操作。育种家做出的最重要的决定是根据相关性状的育种价值来选择和杂交亲本。由于IRRI没有对这一指标进行常规计算，我们的第一步是将历史数据收集到一个模型中，并对产量、成熟度和株高的育种值和可靠度进行尽可能的估计。其他重要性状的育种值，如谷物质量、抗病性和其他农艺性状，没有足够的常规收集或足够的地点来提供有意义的育种值估计。由于努力将数据迁移到B4R数据管理系统中，这一过程被大大加快了。由于我们绝大多数的历史品系都没有DNA指纹数据，储存在家谱管理系统中的系谱数据被用来估计相关系数。通过对我们历史数据的多年评估，可以确定一套独特的核心品系，其产量具有较高和可靠的育种价值，这将成为进一步育种和种质特征分析的基础。一旦确定，这组高育种价值的品系就会被打上指纹，然后用这些数据来估计有效种群大小，并用来估计其他性状（如直链淀粉含量或抗瘟疫性）的主要基因频率。这些指标将被用来指导后代的选择策略，并评估将新基因引入计划的风险/效益。

这一步骤虽然不是由基因组选择引起的，但却非常重要，因为随着核心种质的发展和特征化，该计划承诺主要在这个新的基因库中进行杂交以推动遗传增益。这种跨代的亲缘关系（以及对频繁引入新种质的厌烦）创造了多代组群的遗传连续性，使我们有能力使用祖先的表型数据来预测新创造的后代的表现。与这种关联性相对应的是交叉和群体发展的商业规则的制定。这些规则确保育种计划产生的新杂交，尽可能地使下一代的遗传变异最大化。它们还允许在每个队列中产生足够数量的全同胞和半同胞，从中可以获得预测能力。其中，业务规则包括承诺尽可能地与最近批次的品系进行杂交（而不是较早发布的品系），防止在10%以上的杂交中使用任何一个品系以避免变异性的瓶颈，完全避免子系，以便每个F2植物产生一个独特的F6品系，并确保每个杂交的足够的新固定品系进入第一阶段的产量试验，以便有合理的概率发现一个比该杂交的平均产量至少好一个标准差的新品系。

随着这两个基因组预测应用的进行，该计划从一个长周期的系谱苗圃变成了一个快速周期的基因组学育种战略。这一战略包括根据预定的商业规则进行杂交和设定种群规模目标，通过RGA方法产生新品系，在品系固定后采用MAS，并使用所选头排的批量收割来创造种子，运往区域地点进行测试。对所有地区的整个队列的预测将确保每个品系在每个地区都有观察或预测，从中确定一组核心的特定地区的优良品系，并运往合作伙伴进行第二阶段的产量试验评估和测试。随着各地区对品系队列的数据积累，以及原始核心品系集的后代和祖代开始填充管道，预测各队列的区域表现的能力将增长，直到有足够的数据可用于在第一阶段产量测试前识别新的亲本。

4.2 育种计划的描述和基因组预测的整合

绘制育种计划图是优化使用育种计划资源的一个关键组成部分，并了解基因组选择的切入点可以放在哪里。图2中总结的现行育种策略是2017年在IRRI启动的，目的是减少周期时间，并通过引入基因组预测来优化多环境评估。在这一战略中，大部分活动都是在菲律宾的IRRI总部进行的。在第一年，进行杂交（80-100），并使用专用的SNP标记对F1植株进行验证。在第二年，分离家族通过RGA从F2到F6进行SSD。在这个阶段，7500至10000个品系被推进：这相当于每个杂交的200-400个品系。每个杂交的群体大小是根据主要基因的预期分离来确定的。在第三年，在田间的幼穗行中对这些品系进行评估，以了解种子的增加情况和对均匀度、植物结构和成熟度的评价。同时，对这些品系进行基因分型，对每个育种管道优先考虑的主要基因位点进行标记辅助选择。这些基因包括直链淀粉含量的蜡质基因和一些主要病虫害的抗病基因（瘟病、细菌性叶枯病...）。第三年的第二季专门用于准备在各地区运输的种子。在第四年，使用少于1000个SNP标记的低密度平台对基于MAS和头排选择（1500-2000）的先进品系进行基因分型。同样的品系也在菲律宾IRRI总部的第一阶段产量试验中进行评估。同时，队列中的一个子集（250-300个品系）被送到南亚和东非的区域合作伙伴那里，对关键农艺性状（株高、开花时间、谷物产量）进行多环境评价。这个子集（训练集）被用来建立基因组预测模型，随后被用来在整个群组中选择高级别的优良品系。由于没有历史数据可用于建立可靠的基因组预测模型，该方案中基因组预测的整合依赖于使用半同胞或全同胞，以高度相关的训练集和预测集来最大化准确性。基因组预测模型用于选择下一周期的亲本品系，并为在育种计划第五年进行的第二阶段产量试验选择有希望的品系（30-40个）。这一阶段结束时表现最好的品系可以在国家品种发布系统中进行预先测试，也可以由各地区的合作伙伴在其育种计划中使用，以丰富其基因库。

在这一战略中，育种周期跨越5年，第四年将先进品系作为亲本进行回收（图2）。与IRRI以前实施的育种计划相比，周期时间缩短了2年。缩短周期时间是提高遗传增益率的一个关键因素。在这个计划中，减少周期的主要工具之一是RGA。这种方法很早就为人所知，2013年进行了优化，2014年在IRRI大规模实施。目前，基因组预测没有用于减少周期，主要用于提高区域环境中的选择强度和准确性，特别是产量。其主要原因是育种计划中缺乏适合基因组预测的历史数据。事实上，很少有育种品系经过持续的基因分型和表型来建立一个可靠的数据库。因此，目前的阶段是一个过渡阶段，目前产生的数据为一个数据库提供资料，该数据库将用于预测未来后代的表现（跨群组预测）。这在图2中被强调为未来计划。这种在田间评估前直接预测候选品种性能的能力将使我们能够将周期时间再减少2年，形成2年的育种周期。然而，这也带来了操作上的挑战，如在RGA期间确保每年以稳定的方式进行四代，在RGA结束时生产足够的种子以进行多环境试验，以及快速浏览进口/出口流程以确保种子及时到达合作伙伴处以便在主要季节种植。

4.3 分析管道的一个实际例子

在本节中，我们将介绍我们目前在IRRI用于进行基因组选择的分析管道。这与当前育种策略第四年的活动相对应（第一阶段产量试验，图2）。该分析管道分为三个主要步骤（图3）。

训练集的选择。该步骤基于在育种计划中使用的优良种质中专门选择的具有信息量的SNP标记和Acdemir等人的优化方法，该方法使预测集的预测误差方差（PEV）最小。
单一试验分析。在这一步中，在几个地区的训练集上测量表型数据（株高、开花天数和籽粒产量），分别进行分析，以评估每个地点的数据质量，用混合模型估计基因型数值的空间调整，同时考虑到试验设计。
基因组预测分析。在这最后一步，用训练集的基因型和表型数据训练的GBLUP模型被用来预测所有未测试品系的基因组估计育种值（GEBVs）。

图3 数据分析流程图代表了IRRI育种计划中每个育种周期的常规步骤。首先用SNP panel对整个队列（第一阶段产量试验）进行基因分型，并利用这些数据来选择训练群体（整个队列的子集）。然后在多环境试验（MET）中对该训练群体进行评估。用考虑到实验设计的混合模型来分析单一试验。单一试验的BLUPs与整个群体的标记信息相结合，然后用于计算品系的基因组估计育种值（GEBV）。

为了说明分析管道，以IRRI的灌溉系统育种计划的真实数据为例。分析是在R环境中进行的，并利用了用于混合模型分析的R软件包asreml（有许可证）或sommer（免费提供）以及专门为分析管道开发的函数和文献。我们选择了让用户根据自己的喜好在asreml和sommer之间进行选择的可能性。所有的R脚本和数据都在补充材料中提供（数据1、2和3）。

4.3.1 训练集的选择

在目前的育种计划中，基因组预测被用于群体内预测。为了确定在区域MET中进行表型的最佳子集（训练集），我们使用基于混合模型理论的优化方法，使预测误差方差最小。R软件包STPGA（用于通过遗传算法选择训练群体）中提供的这种方法需要将基因组关系矩阵（G矩阵）作为输入。在这个例子中，1722个品系的整个队列用1079个SNP标记进行基因分型。我们使用rrBLUP软件包，根据包含编码为[-1, 0, 1]的标记信息的基因型矩阵（geno_data）来计算G矩阵。然后，G矩阵与所需的训练集大小（sTS=300）和复制数（rep=5）一起被用作OptiTS函数的参数。复制的数量允许选择在不同的运行中最有代表性的个体纳入训练集，以避免遗传算法的次优解。为了评估训练集与整个队列的代表性，用G矩阵中的两个第一主成分来绘制个体（图4）。

图4 使用用于基因组预测的所有育种品系的分子标记数据进行主成分分析。橙色的三角形代表使用Acdemir等人的优化方法选择的品系，构成训练集。其余的品系（灰色圆圈）构成了预测集。

4.3.2 单一试验分析

一旦确定了训练集，它就被送到区域合作伙伴那里，在MET中进行评估。在本案例研究中，使用了来自孟加拉国五个不同地点的实际试验数据。这些试验是在2020年的旱季（1-5月）进行的。每项试验包括362个育种品系，其中299个是训练组品系，其余的是来自前一批的先进品系和检查品种。所有的试验都采用了部分重复设计，20%的品系进行了重复。本例中使用了三个性状：株高（厘米）、开花天数和谷物产量（吨/公顷）。试验数据被上传到B4R数据库，该数据库已被IRRI采用来管理所有育种试验数据。从B4R数据库导出的每个地点的数据被用来进行单个试验分析（pheno_data对象）。这一步的目的是消除数据集的潜在误差，并利用试验设计从空间变化中进行调整。下面的混合模型（asreml或sommer）被用来获得每条线的BLUP和解压BLUP。

model <- asreml( fixed = trait ~ 1 ,
 random = ~ DESIGN_X + DESIGN_Y + GID,
 na.action = na.method(x = "include"),
 data = dataset)
model <- sommer::mmer(fixed = trait ~ 1,
 random = ~ DESIGN_X + DESIGN_Y + GID,
 rcov = ~ units,
 data = dataset,
 verbose = FALSE)

变量DESIGN_X和DESIGN_Y代表田间地头的坐标。变量GID代表基因型的ID。然后，计算出BLUP和解压后的BLUP值。单次试验分析被嵌入到一个名为single_trial_asreml或single_trial_sommer的函数中，该函数将格式化的表型原始数据作为输入，并返回一个带有几个变量的数据框，包括位置、性状、基因型ID、BLUP、去压BLUP和重复率（H2）。然后对所有地点和性状使用该函数来运行模型并检索BLUPs（图5a）。

图5 单一试验分析和基因组预测分析的结果。面板a显示了五个伙伴试验地点的谷物产量、开花50%天数和株高的BLUP值的图谱。面板b显示了预测和训练集品系的谷物产量GEBV的分布。这些结果是用asreml分析得到。

4.3.3 基因组预测

在基因组预测模型中使用了来自单次试验分析的训练组品系的解压BLUP值和由1722个品系组成的整个队列（训练组和预测组）的全基因组标志物基因型数据。全基因组标记数据被用来构建Sommer包的加性关系矩阵。在使用asreml进行GBLUP分析的情况下，再构建加性关系矩阵的逆矩阵。使用GBLUP模型计算每个品系的GEBV，其中每个地点的回归BLUP为响应变量，地点为固定效应，育种品系（gid）和G矩阵的倒数（invG）为随机效应。

model <- asreml(fixed = trait ~ 1 + location,
 random = ~ vm(gid, invG),
 data = dataset)
model <- sommer::mmer( fixed = trait ~ 1 + location,
 random = ~ vs(gid, Gu = G),
 rcov = ~ vs(units),
 data = dataset,
 verbose = FALSE)

与单一位置分析类似，该模型被嵌入一个有两个参数的函数（gblup _asreml或gblup _sommer）中：第一个是单一位置分析的输出，第二个是G矩阵的逆。该函数的输出是一个包含整个队列的GEBV的表格（图5b）。然后，GEBV值与性状标记信息相结合，由育种者用于选择品系进行高级测试，同时也为下一个育种周期选择亲本。

5 基因组预测在水稻改良中的其他应用

在本章的前几部分，我们看到基因组选择需要方法学研究和精心设计的育种计划才能有效实施。在这最后一部分中，我们介绍了正在进行的有关将基因组预测用于水稻改良的发展。我们认为育种者必须了解即将到来的方法和工具，以便在这些方法和工具成熟时做好准备，在适当的时候将其纳入育种计划。

5.1 用于预选育的遗传多样性的特征分析

遗传多样性的描述和利用对于实现长期育种目标和保持育种群体的适应潜力非常重要。在对精英种质进行反复选择的情况下，新材料的加入在短期内威胁到遗传增益，因为它冲淡了通过连续的选择周期精心积累的高价值等位基因的影响。然而，从长远来看，由于选择以及负或中性连锁拖累或遗传漂移造成的遗传多样性损失，可以通过将遗传变异仔细引入精英库来补偿。为特定的育种目标鉴定最佳加入物是很费力的，因为它需要对大量不同的品系进行准确的表型分析，这些品系往往掩盖了低育种价值背景中的有价值的单倍型。在这种情况下，基因组预测可用于识别种质资源库中的优良品系，并应用于预育，其目的是在大量的品系中识别高潜力基因型。在水稻方面，大型基因组资源的可用性，如3000个水稻基因组或高密度水稻阵列panel，为使用基因组预测来确定相对于育种目标的有价值的基因型提供了独特的机会。

5.2 用于杂交育种的异质群体的定义

在杂交育种中，通常需要异质性群体来最佳地利用物种内的异质性。为此，杂交选择使种质结构成为遗传上不同的群体，当来自互补群体的个体进行杂交时，这些群体显示出卓越的杂交性能。与其他主要作物（如玉米）相反，水稻的杂交群体主要是根据与特定不育系的互补性来定义的，而不是根据由互补性杂交潜力定义的基因库来定义的。由于作为水稻多样性特征的强烈的种群结构被混淆为互补性基因库的异质性分化，这在水稻中变得更加复杂。由于不育性、对比性的适应性和主要谷物质量参数的分布非常不同，将祖先亚种群胁迫成异质性群体的努力，如两个主要类型（籼稻和粳稻）的情况，具有局限性。需要进一步研究，以确定异质性的自然模式，在某些情况下，基因组预测可以帮助这种探索。最近，有人提出在水稻中使用预测法来定义基于互补产量表现的异质性库。在这项基于真实数据的研究中，作者应用Zhao等人开发的方法，通过将所有独特的单交杂交种的预测性能与不同组大小的模拟退火算法相结合，检测产量的异质性模式。

5.3 高通量表型和环境信息的整合

基因组学在育种项目中取得的重大进展强化了这样一种观点，即表型分析仍然是遗传改良的瓶颈。这似乎是矛盾的，因为基因组选择的优势之一在于减少了一些表型分析步骤。此外，由于基因组预测，对更昂贵或更困难的性状（抗旱性、抗宿根性、谷物品质等）的选择可以更早地纳入育种计划，从而提高选择强度。这些观察结果使人们对高通量表型方法的兴趣越来越大。一些工具（RGB和多光谱相机、热传感器等）和平台（表型车、无人驾驶飞行器等）可用于野外和实验室表型，具有广泛的应用前景。当集成到一个基因组预测模型中时，高通量的表型数据可以大大增加预测的准确性。在表型选择的情况下，高通量近红外光谱数据甚至可以取代基因型数据，并提供类似的准确性。然而，为了在育种中发挥作用，高通量表型技术产生的大量数据需要储存在数据管理系统中，相对于人工表型的成本和选择精度进行适当的审核，并与正确的基因型数据相关联，如果它要改善决策过程。尽管近年来工具和分析管道已经发展起来，但这些方法的常规使用仍有重要的限制：获取多环境的田间数据，而不仅仅是来自中央研究站的数据，是否有能够处理大型时间序列数据集的数据管理系统，以及相关设备的初始成本。预计随着技术和法规的成熟，提供高通量表型服务的专门公司将出现，就像基因分型的情况一样。

除了高通量表型，更好地描述影响作物性能的环境因素将提高我们解释非遗传性变异来源的能力。这种 "环境分型 "是一个积极研究的领域，显示出巨大的前景。为了使允许高通量实时收集环境类型数据的技术真正有用，需要继续使数据管理和分析策略成熟，以便从这些数据集中提取信息。

6 结论：一个水稻育种家的观点

根据水稻和其他物种的文献，进行基因组预测的能力和将基因组选择应用于水稻育种项目的价值是无可置疑的。估计预测值的能力以及作为估计GEBVs基础的关键数据集和模型也是非常清楚的。水稻的标记资源和表型能力是存在的，即使是最偏远的育种组织此时也可以利用。此外，描述种群中数量性状变异如何遗传的规则已被很好地理解，在大多数情况下，无限小模型似乎适用于水稻的数量性状。要想获得这项技术的全部价值，还需要对水稻育种项目进行重新定位，即在一个确定的基因库中围绕短周期的轮回选择策略。在这一转变过程中，基因组预测还可以帮助改善队列内的选择，并节省田间评估的费用。因此，在大多数项目中，产生基因型数据或建立分析管道往往不是实施基因组选择的起点。必须首先制定明确的数据收集和管理的业务规则，明确规定亲本选择的最佳做法，并承诺在精英基因库中工作。除这些基础活动外，育种项目必须使其运作标准化和系统化，使资源得到优化，工作流程清晰，育种者不需要花费过多的时间来管理物流。田间工作需要更多地关注数据质量和数据收集，将选择决策保留到数据收集、分析和解释之后。常规基因分型的标记系统也是必要的，但必须发展到基因型数据对感兴趣的育种种质有具体的信息。

迄今为止，公开的水稻文献主要集中在与预测在水稻中是否有效或如何优化预测精度有关的问题上。很少有水稻文献涉及如何实际应用预测来提高遗传增益率。因此，在试图实现现代化的过程中，许多育种家陷入了 "概念证明的炼狱"，试图复制别人的分析。试图改善其策略的育种家将受益于考虑他们的计划是否奠定了适当的基础，然后仔细考虑在他们声明的育种策略中预测的入口是什么。商业育种计划的优势在于可以自由地将资源投入到前期的额外资本或运营支出中，以获取长期的价值。然而，由于预算通常是紧张的、固定的，或者需要国会批准的公共资助项目，对育种策略进行成本节约的调整（如采用稀疏的测试设计或实施快速的品系固定代数）可能会在短期内释放出资源，这些资源可以用于为完全的基因组预测育种策略奠定适当的基础。

PS：文中提供的示例数据和代码无法下载（根本没上传），已邮件向作者索取。若读者有需要，可微信联系我：Bioinfarmer

posted @ 2022-08-10 21:51 生物信息与育种阅读(879) 评论(0) 编辑收藏举报

刷新页面返回顶部

生物信息与育种

生信、AI、大数据与育种相关，微信公众号：生物信息与育种

【2022-IRRI综述】基因组预测：水稻改良的进展与前景

摘要

1 引言

2 水稻的基因组预测工作

2.1 总体概述

2.2 水稻基因组预测的重要发现和目前的局限性

2.2.1 重要的研究结果

2.2.2 目前的局限性

3 将基因组预测纳入水稻育种计划：关键点

3.1 绘制育种策略图

3.2 减少周期

3.3 设计训练集

3.4 生成和整合高质量的数据

3.5 考虑到成本问题

4 IRRI灌溉系统育种计划的例子

4.1 从系谱育种到轮回基因组选择的转变

4.2 育种计划的描述和基因组预测的整合

4.3 分析管道的一个实际例子

4.3.1 训练集的选择

4.3.2 单一试验分析

4.3.3 基因组预测

5 基因组预测在水稻改良中的其他应用

5.1 用于预选育的遗传多样性的特征分析

5.2 用于杂交育种的异质群体的定义

5.3 高通量表型和环境信息的整合

6 结论：一个水稻育种家的观点

公告