数据类型与数据分布
2015-08-29 22:18 新西内几米 阅读(4510) 评论(0) 编辑 收藏 举报1.离解数据与离散分布
离解数据通常是那些只能用整数表现的数据。比如某省的人口数,宇宙中单位体积内的星球个数等。
1.1统计中常见的描述离散型数据的离散分布:
1.退化分布:一个随机变量X以概率1取某一常数,即 P{X=a}=1,则称X服从a处的退化分布。确定分布。
2.两点分布:一个随机变量只有两个可能取值, 设其分布为 P{X=x1}=p, P{X=x2}=1-p, 0<p<1,则称X服从x1, x2处参数为p的两点分布。
当如果X只取0, 1两个值, 其概率分布为P{X=1}=p, P{X=0}=1-p, 0<p<1。则称X服从参数为p的0-1分布, 也称X是参数为p的伯努利随机变量. 此时EX=p, DX=p(1-p)。【抛一枚硬币】
3.n个点上的均匀分布:
设随机变量X取n个没不同的值,且其概率分布为 P{X=xi}=1/n,(i=1,2,3,...,n),则称X服从n个点{x1,x2,...,xn}上的均匀分布。【抛一枚骰子】
古典概型中经常出现此类分布情形。
4.二项分布:n重伯努利试验,成功k次的概率分布。
【判断是否为伯努利试验的关键是每次试验事件A的概率不变,并且每次试验的结果同其他各次试验的结果无关,重复是指试验为一系列的试验,并非一次试验,而是多次,但要注意重复事件发生的概率相互之间没有影响。】
5.几何分布:n次伯努利实验中,A为发生事件,设X为直到发生事件A为止所进行的实验次数。【在袋子中直到摸到一个红球的所摸的次数】
6.超几何分布:一个袋子中共装有N个球, 其中N1个白球, N2个黑球, 从中不放回地抽取n个球, X表示取到白球的数目, 那么X的分布为
7.泊松分布:
电话交换台在一给定时间内收到用户的呼叫次数,售票口到达的顾客人数,保险公司在一给定时期内被索赔的次数,某一服务设施在一定时间内到达的人数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等均可近似地用泊松分布来描述。事件以固定的概率λ【平均瞬时速率λ(或称密度)】随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布。泊松分布是二项分布的条件放宽,对中n趋近无穷时的推导出来的!对泊松分布的理解参见阮一峰对泊松分布的理解。
1.2离散分布之间的联系
二项分布,几何分布和帕斯卡分布(负二项分布)都是基于独立的伯努利试验。
二项分布:描述在给定的n次试验中成功x次的概率几何分布:描述第一次成功发生在第x次的概率帕斯卡分布:负二项分布的正整数形式,描述已知一个事件在伯努利试验中每次的出现概率是p,在一连串伯努利试验中,一件事件刚好在第r + k次试验出现第r次的概率,因此几何分布是n=1的帕斯卡分布特例
超几何分布:描述的是总体有限的无放回抽样问题。总体有N个个体,其中具有某一特点的个体有M个,如果从中抽取n个,其中带有这一特点的样本为x个的概率。超几何分布中我们常常希望推断的是N(已知M)或者M(已知N)。例如要知道河里有多少鱼,可以打捞M条做标记,过段时间认为这些做了标记的鱼都均匀分散在水中以后,再打捞n条,其中具有带有标记的鱼为m条,推断鱼的总数N。
超几何分布 V.S. 二项分布: 两者都是抽样,只不过超几何分布是无放回抽样,二项分布是有放回抽样。当超几何分布中N很大,而n很小时,无放回抽样可以近似得看成有放回抽样,也就是超几何分布可以用二项分布近似。
泊松分布 V.S. 二项分布:
泊松分布可以用来近似二项分布,当二项分布中,n很大,而p很小,np又是一个大小合适的数时,可以用Poisson(np)来近似二项分布。binomial(x;n,p)=poisson(x,np)
例如,一个城市有10万人,在一个小时之内,每个人来到某个车站的概率均为0.001,那么在一个小时之内,这个车站会有多少人到来呢?
这是一个二项分布,n=10万,p=0.001,显然期望等于np=100人。如果让求在一个小时之内有150人到来的概率,当然可以用二项分布,但里面的组合数不好计算,这时就可以用泊松分布近似:认为在一个小时内,这个车站到来的人数服从lambda=np=100的泊松分布。也就是说泊松分布常常用来描述总体很大,对于总体中每个个体来说事件发生的概率很小(但总体中发生事件的概率=np,就不是一个小数字),在一段时间内总体中发生事件的次数为x的概率。显然发生的次数与时间的长度以及lambda=np有关。
若x服从Poisson 分布,那么x应当满足泊松过程的三个条件:平稳性,独立性和普通性。(概率论基础,复旦大学,李贤平,第99页)
所谓平稳性就是在一段时间内发生的次数与计时的起点无关,只与时间的长度有关;
所谓独立性就是互不相交的时间区间内过程进行的互相独立性;
所谓普通性就是同一时间不可能有两个或两个以上的事件发生。
显然,这三点在现实中可能是不满足的。例如一段时间内到来的呼叫次数,完全有可能出现两个呼叫同时发生的情况(占线),也有可能不平稳,例如白天的呼叫次数多于夜间。
几何分布具有无记忆性,这是由于每次试验都是独立的试验,不受之前试验结果的影响。注意到连续分布中的指数分布也具有无记忆性。
2.连续数据与连续分布
连续数据是在一定区间内可以任意取值的数据,其数值是连续不断的,相邻两个数值可作无限分割后仍然有意义,即可取无限个数值。
统计中提到最多的就是正态分布。它很重要!
2.1统计中常见的连续型分布:
1.均匀分布
2. 正态分布-标准正态分布
3. χ2(卡方)分布
4.F分布
5.T分布
6.指数分布——注意到与幂律分布的区别
7.γ(伽玛)分布
8.weibull分布
9.β(贝塔)分布
2.2连续分布之间的联系
正态分布是统计学中分布的核心。根据大数定律和中心极限定理,二项分布、泊松分布都能在n趋近无穷时,趋近于正态分布。
连续型分布中,χ2(卡方)分布、T分布、F分布都是由正态分布(标准正态分布)推导出来的。
指数分布和幂律分布图形很像,http://blog.sina.com.cn/s/blog_8f48f45301015ofs.html 指出幂律分布的下降速度比指数分布快的现象,幂律下降时两端更高,中间更低,在前半段变化比指数更快。