如何正确拆分数据集？常见的三种方法总结

将数据集分解为训练集，可以帮助我们了解模型，这对于模型如何推广到新的看不见数据非常重要。如果模型过度拟合可能无法很好地概括新的看不见的数据。因此也无法做出良好的预测。

拥有适当的验证策略是成功创建良好预测，使用AI模型的业务价值的第一步，本文中就整理出一些常见的数据拆分策略。

简单的训练、测试拆分

将数据集分为训练和验证2个部分，并以80％的训练和20％的验证。可以使用Scikit的随机采样来执行此操作。

首先需要固定随机种子，否则无法比较获得相同的数据拆分，在调试时无法获得结果的复现。如果数据集很小，则不能保证验证拆分可以与训练拆分不相关。如果数据不平衡，也无法获得相同的拆分比例。

所以简单的拆分只能帮助我们开发和调试，真正的训练还不够完善，所以下面这些拆分方法可以帮助u我们结束这些问题。

将数据集拆分为k个分区。在下面的图像中，数据集分为5个分区。

选择一个分区作为验证数据集，而其他分区则是训练数据集。这样将在每组不同的分区上训练模型。

完整文章：

posted @ 2022-06-18 11:36 deephub 阅读(440) 评论(0) 收藏举报

刷新页面返回顶部