交叉验证
- Holdout Method
原始数据被分成两部分:training set和test set。一般来说,training set占2/3,test set占1/3。这种验证方式不是很有效,因为只有部分数据参与到模型的生成。
- Random subsample
进行K次holdout method就形成了随机子采样。
- K-fold cross-validation
数据分成K份,D1,D2,D3,˙˙˙,Dk。迭代进行,每次取出一份作为test set,其余K-1份做training set。最终的准确度是K次试验的均值。
- Leave-one-out
有多少个样本就分成多少fold。每一次只留一个sample做测试。
- Stratified cross-validation
针对原始数据中类别的比例,进行分层采样,确保每一份数据都符合原始数据的分布。比如:原始数据集中有两个类,比例为2:1,那么采样时就按照这个比例进行切分数据。
总的来说,分层10折交叉验证(stratified 10-fold cross-validation)是最经常用的准确评价方法。