数学之路(3)-数据分析(5)
本博客所有内容是原创,未经书面许可,严禁任何形式的转载。
http://blog.csdn.net/u010255642
3、基本分布
(1)正态分布
对于一维实随机变量X,设它的累积分布函数是。如果存在可测函数 ,满足:
那么X 是一个连续型随机变量,并且是它的概率密度函数。
累积分布函数,又叫累计分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。 对于所有实数x ,累积分布函数定义如下:
正态分布的分布函数为:
正态分布用pnorm(变量,平均值,标准差)的方式调用。
峰度系数表明平均劳动报酬相对平均教育经费更接近于正态分布
> mean(jiuye$平均劳动报酬)->mymean
> sd(jiuye$平均劳动报酬)->mysd
> length(jiuye$平均劳动报酬)->myn
> jiuye$平均劳动报酬->x
>((myn*(myn+1))/((myn-1)*(myn-2)*(myn-3))*sum((x-mymean)^4)/mysd^4-(3*(myn-1)^2)/((myn-2)*(myn-3)))
[1] 5.417817
我们选择产品产量做为正态分布的例子更适合,因为它最接近于正态分布
> mean(cp$产量.台.)->mymean
> sd(cp$产量.台.)->mysd
> length(cp$产量.台.)->myn
> cp$产量.台.->x
> ((myn*(myn+1))/((myn-1)*(myn-2)*(myn-3))*sum((x-mymean)^4)/mysd^4-(3*(myn-1)^2)/((myn-2)*(myn-3)))
[1] -0.6830728
>
使用pnorm求分布函数,对应每个实数值都有其累积分布概率
> x
[1] 4300 4004 4300 5016 5511 5648 5876 6651 6024 6194 7558 7381 6950 6471
[15] 6354 8000
>
> pnorm(x,mymean,mysd)
[1] 0.07435941 0.04519643 0.07435941 0.20013522 0.33567136 0.37868351
[7] 0.45345196 0.70390728 0.50306546 0.55994848 0.90310411 0.87500925
[13] 0.78449233 0.64954647 0.61239714 0.95270286