【python sklearn 机器学习】sklearn.model_selection 介绍
最近做项目接触到了sklearn模块,觉得非常好用,许多算法都已经实现了,还有很多实用功能,第一次接触还是有些不熟悉,因此把学习到的内容记录下来,以供自己或他人参考使用。
对于机器学习和sklearn也是才接触不久,如果有错误之处,请指正。
简介
官方API文档:sklearn.model_selection
。这个模块主要是对数据的分割,以及与数据划分相关的功能。会在哪里划分数据能,这里先说一下机器学习的流程,我对机器学习流程的理解为:
- 收集数据
- 选择训练的数据。并不是所有搜集到的数据都可能用到。
- 将数据划分为
训练集
和测试集
- 选择
模型
- 确定
模型
的参数
- 使用
测试集
评估模型
这其中涉及到两次对于数据的划分,分别在步骤5和步骤6,这里使用两幅图可能容易理解一些:
-
有点像数据流图
-
结合交叉验证划分的图
模块
所有的模块有以下这么多,这里我主要分成了5块。
1、2、3 参考:https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation
5 参考: https://scikit-learn.org/stable/modules/learning_curve.html#learning-curve 和 https://blog.csdn.net/liujing319/article/details/86478574