GS的最终模型是只用训练集,还是要将验证/测试集也加入一起建模?
在机器学习中,模型评估和最终建模的过程通常遵循以下步骤:
-
数据划分:
- 首先,将数据集划分为训练集(Training Set)、验证集(Validation Set)和测试集(Test Set)。
- 训练集用于训练模型。
- 验证集用于模型选择和超参数调整。
- 测试集用于最终评估模型的性能,且在整个建模过程中保持独立,不被用于训练或调整模型。
-
模型训练与评估:
- 使用训练集训练模型。
- 使用验证集对模型进行评估,根据验证集的性能选择最佳模型和调整超参数。
- 这个过程可能涉及到交叉验证(Cross-Validation)等技术,以更有效地利用数据。
-
最终模型选择:
- 在验证集上表现最好的模型被选为最终模型。
-
最终建模:
- 最终建模时,通常只使用训练集数据来训练模型。这是因为验证集和测试集应该保持独立,以提供对模型泛化能力的无偏估计。
- 因此,最终模型的建立是基于训练集样本的,不包括验证集或测试集的数据。
-
测试集评估:
- 最后,使用完全独立的测试集来评估最终模型的性能。这是评估模型在未见数据上的表现的最后步骤。
综上所述,最终建模使用的是训练集样本建立的模型,不包括验证集或测试集的数据。这样做的目的是为了确保模型评估的公正性和准确性,避免过拟合,并确保模型在新数据上具有良好的泛化能力。
本文来自博客园,作者:生物信息与育种,转载请注明原文链接:https://www.cnblogs.com/miyuanbiotech/p/18589103。若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。