Bootstrapping
转自:https://blog.csdn.net/yuzhiping1/article/details/82989015
Bootstrapping从字面意思翻译是拔靴法,从其内容翻译又叫自助法,是一种再抽样的统计方法。自助法的名称来源于英文短语“to pull
oneself up by one’s bootstrap”,表示完成一件不能自然完成的事情。1977年美国Standford大学统计学教授Efron提出了一种新的增广样本的统计方法,就是Bootstrap方法,为解决小子样试验评估问题提供了很好的思路。
oneself up by one’s bootstrap”,表示完成一件不能自然完成的事情。1977年美国Standford大学统计学教授Efron提出了一种新的增广样本的统计方法,就是Bootstrap方法,为解决小子样试验评估问题提供了很好的思路。
Bootstrapping算法,指的就是利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布的新样本。bootstrapping的运用基于很多统计学假设,因此假设的成立与否影响采样的准确性。
统计学中,bootstrapping可以指依赖于重置随机抽样的一切试验。bootstrapping可以用于计算样本估计的准确性。对于一个采样,我们只能计算出某个统计量(例如均值)的一个取值,无法知道均值统计量的分布情况。但是通过自助法(自举法)我们可以模拟出均值统计量的近似分布。有了分布很多事情就可以做了(比如说有你推出的结果来进而推测实际总体的情况)。
bootstrapping方法的实现很简单,假设抽取的样本大小为n:
在原样本中有放回的抽样,抽取n次。每抽一次形成一个新的样本,重复操作,形成很多新样本,通过这些样本就可以计算出样本的一个分布。新样本的数量通常是1000-10000。如果计算成本很小,或者对精度要求比较高,就增加新样本的数量。
优点:简单易于操作。
缺点:bootstrapping的运用基于很多统计学假设,因此假设的成立与否会影响采样的准确性。
1、自助法的基本思路:
如果不知道总体分布,那么,对总体分布的最好猜测便是由数据提供的分布。自助法的要点是:①假定观察值便是总体;②由这一假定的总体抽取样本,即再抽样。由原始数据经过再抽样所获得的与原始数据集含量相等的样本称为再抽样样本(resamples)或自助样本(bootstrapsamples)。如果将由原始数据集计算所得的统计量称为观察统计量(observed
statistic)的话,那么由再抽样样本计算所得的统计量称为自助统计量(bootstrap statistic)。自助法的关键所在是自助统计量与观察统计量间的关系,就如同观察统计量与真值间的关系,可表示为:
statistic)的话,那么由再抽样样本计算所得的统计量称为自助统计量(bootstrap statistic)。自助法的关键所在是自助统计量与观察统计量间的关系,就如同观察统计量与真值间的关系,可表示为:
自助统计量::观察统计量<=>观察统计量::真值
其中,“::”表示二者间的关系,“<=>”表示等价于。也就是说,通过对自助统计量的研究,就可以了解有关观察统计量与真值的偏离情况。
其中的再抽样是有返还的抽样(sampling with replacement)方式。假定有n个观察值,自助样本可按如下步骤获得:
①将每一观察值写在纸签上;
②将所有纸签放在一个盒子中;
③混匀。抽取一个纸签,记下其上的观察值;
④放回盒子中,混匀,重新抽取;
⑤重复步骤③和④n次,便可得到一个自助样本。
③混匀。抽取一个纸签,记下其上的观察值;
④放回盒子中,混匀,重新抽取;
⑤重复步骤③和④n次,便可得到一个自助样本。
重复上述抽样过程B次,便可得到B个自助样本。(引用自刘文忠老师的一篇论文,感觉这样讲的比较容易懂了)。
2、Bootstrap的数学表达
其中等号上面一个小三角号表示定义。
快去成为你想要的样子!