交叉验证

  • Holdout Method

  原始数据被分成两部分:training set和test set。一般来说,training set占2/3,test set占1/3。这种验证方式不是很有效,因为只有部分数据参与到模型的生成。

  • Random subsample

  进行K次holdout method就形成了随机子采样。

  • K-fold cross-validation

  数据分成K份,D1,D2,D3,˙˙˙,Dk。迭代进行,每次取出一份作为test set,其余K-1份做training set。最终的准确度是K次试验的均值。

  • Leave-one-out

  有多少个样本就分成多少fold。每一次只留一个sample做测试。

  • Stratified cross-validation

针对原始数据中类别的比例,进行分层采样,确保每一份数据都符合原始数据的分布。比如:原始数据集中有两个类,比例为2:1,那么采样时就按照这个比例进行切分数据。

总的来说,分层10折交叉验证(stratified 10-fold cross-validation)是最经常用的准确评价方法。

posted on 2015-10-19 16:02  湘江楚云  阅读(517)  评论(0编辑  收藏  举报

导航