统计模拟实验—R实现(蒲丰投针)
统计模拟是数理统计、和计算机科学的结合,是一门综合性学科。在科学研究和生产实际的各个领域中,普遍存在着大量数据的分析处理工作。如何应用数理统计中的方法来解决实际问题,以及如何解决在应用中出现的计算问题,对实际工作者来说是极需要解决的问题。统计模拟正是力求把统计思想、数值计算及在计算机上的实现结合起来,使我们掌握用统计方法解决实际问题的全过程。
一、统计模拟概述
统计模拟就是在计算机上通过大量抽样实现从样本抽样到统计分析的全过程,找出推断的规律。统计模拟即计算机统计模拟,本质上是计算机建模,这是架于计算机理论和实际问题的桥梁,他们之间的关系如下图所示。
用以揭示数据背后的信息知识,诠释社会经济现象,或对经济社会发展作出预测和判断。
1.统计模拟——蒙特卡罗模拟
蒙特卡罗(Monte Carlo)模拟,又称随机抽样或统计试验方法,属于计算数学的一个分支,它是在上世纪四十年代中期为了适应当时原子能事业的发展而发展起来的。传统的经验方法由于不能逼近真实的物理过程,很难得到满意的结果,而蒙特卡罗方法由于能够真实地模拟实际物理过程,故解决问题与实际非常符合,可以得到很圆满的结果。这也是以概率和统计理论方法为基础的一种计算方法,是使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系,用电子计算机实现统计模拟或抽样,以获得问题的近似解。为象征性地表明这一方法的概率统计特征,故借用赌城蒙特卡罗命名。
2.基本思想原理
当所要求解的问题是某种事件出现的概率,或者是某个随机变量的期望值时,它们可以通过某种“试验”的方法,得到这种事件出现的频率,或者这个随机变数的平均值,并用它们作为问题的解。这就是蒙特卡罗方法的基本思想。蒙特卡罗方法通过抓住事物运动的几何数量和几何特征,利用数学方法来加以模拟,即进行一种数字模拟实验。它是以一个概率模型为基础,按照这个模型所描绘的过程,通过模拟实验的结果,作为问题的近似解。可以把蒙特卡罗解题归结为三个主要步骤:构造或描述概率过程;实现从已知概率分布抽样;建立各种估计量。
3.统计模拟步骤
3.1 构造或描述概率过程
对于本身就具有随机性质的问题,如粒子输运问题,主要是正确描述和模拟这个概率过程,对于本来不是随机性质的确定性问题,比如计算定积分,就必须事先构造一个人为的概率过程,它的某些参量正好是所要求问题的解。即要将不具有随机性质的问题转化为随机性质的问题。
3.2 实现从已知概率分布抽样
构造了概率模型以后,由于各种概率模型都可以看作是由各种各样的概率分布构成的,因此产生已知概率分布的随机变量(或随机向量),就成为实现蒙特卡罗方法模拟实验的基本手段,这也是蒙特卡罗方法被称为随机抽样的原因。最简单、最基本、最重要的一个概率分布是(0,1)上的均匀分布(或称矩形分布)。随机数就是具有这种均匀分布的随机变量。随机数序列就是具有这种分布的总体的一个简单子样,也就是一个具有这种分布的相互独立的随机变数序列。产生随机数的问题,就是从这个分布的抽样问题。在计算机上,可以用物理方法产生随机数,但价格昂贵,不能重复,使用不便。另一种方法是用数学递推公式产生。这样产生的序列,与真正的随机数序列不同,所以称为伪随机数,或伪随机数序列。不过,经过多种统计检验表明,它与真正的随机数,或随机数序列具有相近的性质,因此可把它作为真正的随机数来使用。由已知分布随机抽样有各种方法,与从(0,1)上均匀分布抽样不同,这些方法都是借助于随机序列来实现的,也就是说,都是以产生随机数为前提的。由此可见,随机数是我们实现蒙特卡罗模拟的基本工具。
3.3 建立各种估计量
一般说来,构造了概率模型并能从中抽样后,即实现模拟实验后,我们就要确定一个随机变量,作为所要求的问题的解,我们称它为无偏估计。建立各种估计量,相当于对模拟实验的结果进行考察和登记,从中得到问题的解。
二、蒲丰投针实验——R实现
1. 蒲丰投针问题
法国数学家蒲丰于1777年完成的投针实验是历史上第一个统计模拟实验,可以利用实验结果估计圆周率。该实验可以表述为:向一簇距离为2a的平行线构成的平面中投掷一根长度为2L的针,求针与直线相交的概率。这里假设L<a,实验分析如下图:
2. R处理语句
buffon<-function(n,a,L){
m<-0
for (i in 1:n) {
x<-runif(1)*a
theta<-runif(1)*pi
if(L*sin(theta)>=x){m=m+1}
}
#估算概率
p<-m/n
#估算pi
pie<-2*L/(a*p)
result<-c('估计概率'=p,'pi估计值'=pie);result
}
3. 计算结果
buffon(10000,3,2)
估计概率 pi估计值
0.417300 3.195143
buffon(10000,1,0.8)
估计概率 pi估计值
0.51440 3.11042
buffon(10000,2,1.5)
估计概率 pi估计值
0.473000 3.171247
三、总结
统计模拟在金融工程学,宏观经济学,生物医学,计算物理学(如粒子输运计算、量子热力学计算、空气动力学计算)等领域也应用广泛。随着计算机和网络技术的快速普及和广泛发展,我们面对着数据和信息爆炸的挑战,如何迅速有效地将数据提升为信息、知识和智能,是统计工作者面临的重要课题。而统计建模将统计方法、计算机技术完美结合,带动以数据分析为导向的统计思维,发现和挖掘数据背后的规律,为经济社会的发展提供更好更多的统计信息。