机器学习(3)
一、模型评估与选择
2.2.1留出法
1、直接将数据集划分为两个互斥的集合,即D=sUt,s∩t=空集
2、在s上训练出模型,用t来评估其测试误差
3、s/t的划分尽可能保持数据分布的一致性,至少要保持样本的类别比例相似
4、若s,t中的样本比例差别很大,则误差估计将由训练/测试数据分布的差异而产生偏差
5、在给定训练/测试集的样本比例之后,仍存在多种划分方式对初始数据集D进行分割。这些不同的划分将导致不同的训练/测试集
6、在使用留出法时,一般要采用若干次随机划分,重复进行试验后取平均值作为留出法的评估结果
2.2.2交叉验证法
1、先将数据集D划分为k个大小相似的互斥子集
即每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到,然后,每次用k-1个子集的并集作为训练集,
余下的自己作为测试集(总过划分为k个子集)这样便可获得k组训练/测试集,从而进行k次训练和测试,最终返回k个测试结果的均值
2、k最常使用的取值为10
3、将数据集D划分为k个子集存在多种划分方式。k折交叉验证通常要随机使用不同的划分重复p次,最终取这p次k折交叉验证的均值作为结果
2.2.3自助法
1、在前两者中,由于保留了一部分样本用于测试,因此是实际评估的模型所使用的训练集比D小。这会导致些许误差
2、“自助法”直接以自助采样法为基础,给定包含m个样本的数据集D,我们对它进行采样产生数据集d,每次随机从D中挑选一个样本,将其拷贝放入d,
使得该样本在下次采样时仍可能被采到,将这个过程重复执行n次,就得到了包含n个样本的数据集d,这就是自助采样的结果