数据科学家成长之旅

关注 机器学习,深度学习,自然语言处理,数学

泊松分布 和 指数分布

一、先摆出泊松分布表达式:

\[P(x=k;\lambda) = \frac{\lambda^k}{k!}e^{-\lambda} \]

泊松分布的意义:

  首先,泊松分布的描述对象是“离散随机变量”;

  泊松分布是描述特定时间或者空间中事件的分布情况。泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。 泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。
  

1.一本书里,印刷错误的字的个数:

  其中参数λ由二项分布的期望np决定,λ=np,表示该时间(空间)段内的事件发生的频率。这个例子中,表示一般情况下,书内(空间)的出错的频率(期望),n代表所有的字数,p代表印刷错误的概率,k表示印刷错的字数。刚好这个例子包含了,当n很大,p很小的时候,二项分布的极限是泊松分布。因为这个例子同样可以用二项分布的角度来解释:每印刷一个字,表示一次伯努利实验(n代表所有的字数,p代表印刷错误的概率,k表示印刷错的字数。

  当n继续变大,为连续变量的时候,二项分布的极限又成了正态分布(正态分布是所有分布趋于极限大样本的分布)。

2.一段时间内的次品率;

3.某医院平均每小时出生的婴儿数;

4.某网站每分钟的访问次数;

  注意这里的λ为一段时间内的期望,如果待研究的时间段变化了,λ也要跟着变。比如医院平均每小时出生的婴儿数的参数为λ,则“医院平均每两个小时出生的婴儿数”的参数为2λ,则每两个小时医院出身的婴儿个数为k的概率为:

\[P(x=k;\lambda) = \frac{(2\lambda)^k}{k!}e^{-2\lambda} \]

泊松分布的柱状图类似正太分布的形状,在 k = λ 的时候概率最大。

二、指数分布

概率密度函数:

\[f(x) = \dfrac{1}{\theta}e^{-x/\theta}, x > 0 \]

分布函数:

\[P(X \le x) = F(x) = 1 - e^{-x/\theta}, x \ge 0 \]

其中θ>0为常数,则称X服从参数θ的指数分布。

指数分布的意义:

  首先,指数分布的描述对象是“连续型随机变量”;

  指数分布是泊松过程的事件间隔的分布:泊松分布表示的是事件发生的次数,“次数”这个是离散变量,所以泊松分布是离散随机变量的分布;指数分布是两件事情发生的平均间隔时间,“时间”是连续变量,所以指数分布是一种连续随机变量的分布。

  指数分布的期望为\(E(X)=\theta=1/\lambda\),对,这里的λ的含义就是泊松分布中的λ。如果你平均每个小时接到2次电话(Θ=2),那么你预期等待每一次电话的时间是半个小时(λ=1/Θ=0.5)。

指数分布的主要特点是“无记忆性”:\(P(T>s+t|T>t)=p(T>s)\)

即,如果T是某一元件的寿命,已知元件使用了t小时,它总共使用至少s+t小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等.(注意:指数分布的这种特性,与机械零件的疲劳、磨损、腐蚀、蠕变等损伤过程的实际情况是完全矛盾的,它违背了产品损伤累积和老化这一过程。所以,指数分布不能作为机械零件功能参数的分布形式。)

指数分布的实例有:

  1.旅客进机场的时间间隔;

  2.网站访问的时间间隔;

  3.婴儿出生的时间间隔。

一句话总结:

  泊松分布是单位时间内独立事件发生次数的概率分布,指数分布是独立事件的时间间隔的概率分布。注意,泊松分布和指数分布的前提是"独立事件",事件之间不能有关联,否则就不能运用上面的公式。

posted on 2016-12-19 11:21  会飞的蝸牛  阅读(15319)  评论(2编辑  收藏  举报

导航