【Bootstrap Method】Evaluating The Accuracy of a Classifier
自助法介绍:
非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自助法。其核心思想和基本步骤如下:
(1)采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。
(2)根据抽出的样本计算给定的统计量T。
(3)重复上述B次(一般大于1000),得到N个统计量T。
(4)计算上述B个统计量T的样本方差,得到统计量的方差。
举个例子:
1.背景。比如要算一个统计量T,它是是一个从样本(X1,X2,X3……Xn)得来的函数,比如中位数,就是从(X1,X2,X3……Xn)中取中间的那个数,计算过程写成函数T0=T(X1,X2,X3……Xn)
2.做法。根据一次样本(X1,X2,X3……Xn)我们只能得到一个T的值,然后就是关键步骤了,在{X1,X2,X3……Xn}这个集合中有放回的抽取N个元素出来,这N个元素(可能出现两次X1)重新做为样本,计算一次T,把这个结果记为T1,这样重复抽取B次,我们就算了B个T出来。
3. 结论。这B个T的方差,就是统计量T的方差的估计。
应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸。
具体抽样方法举例:想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘。
进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算。
在统计学中,自助法(Bootstrap Method,Bootstrapping或自助抽样法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。自助法由Bradley Efron于1979年在《Annals of Statistics》上发表。当样本来自总体,能以正态分布来描述,其抽样分布(Sampling Distribution)为正态分布(The Normal Distribution);但当样本来自的总体无法以正态分布来描述,则以渐进分析法、自助法等来分析。采用随机可置换抽样(random samplingwith replacement)。对于小数据集,自助法效果很好。
简而言之,bootstrap方法就是重抽样。为什么需要bootstrap方法呢?因为bootstrap方法使得我们无需分布理论的知识也可以进行假设检验,获得置信区间。当数据来自未知分布,或者存在严重异常点,又或者样本量过小,没有参数方法解决问题时,bootstrap方法将是一个很棒的方法。