cross validation

k-folder cross-validation:
k个子集,每个子集均做一次测试集,其余的作为训练集。交叉验证重复k次,每次选择一个子集作为测试集,并将k次的平均交叉验证识别正确率作为结果。
优点:所有的样本都被作为了训练集和测试集,每个样本都被验证一次。10-folder通常被使用。

K * 2 folder cross-validation
是k-folder cross-validation的一个变体,对每一个folder,都平均分成两个集合s0,s1,我们先在集合s0训练用s1测试,然后用s1训练s0测试。
优点是:测试和训练集都足够大,每一个个样本都被作为训练集和测试集。一般使用k=10

least-one-out cross-validation(loocv)
假设dataset中有n个样本,那LOOCV也就是n-CV,意思是每个样本单独作为一次测试集,剩余n-1个样本则做为训练集。
优点:
1)每一回合中几乎所有的样本皆用于训练model,因此最接近母体样本的分布,估测所得的generalization error比较可靠。
2)实验过程中没有随机因素会影响实验数据,确保实验过程是可以被复制的。
但LOOCV的缺点则是计算成本高

十折交叉验证:10-fold cross validation

用来测试算法准确性。是常用的测试方法。将数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证(例如10次10折交叉验证),再求其均值,作为对算法准确性的估计。

使用libsvm进行cross validation

libsvm提供了svm.svm_cross_validation(svm_problem prob, svm_parameter param, int nr_folder, double[] target)

其中target用于保存验证分类结果的输出,十分巧妙,因为根据交叉验证规则,每个输入样本都会执行一次预测。

            double[] target = new double[labels.length];
            
            svm.svm_cross_validation(problem, param, 10, target);
            double correctCounter = 0;
            for (int i = 0; i < target.length; i++) {
                if (target[i] == labels[i]) {
                    correctCounter++;
                }
            }

 

 

posted on 2013-09-24 09:26  zjgtan  阅读(1807)  评论(0编辑  收藏  举报

导航