数据统计分析 — 泊松分布

在一指定时间范围内或在指定的面积或体积内某一事件出现的次数的分布,他们对应的随机变量的概率服从的分布叫做泊松分布,泊松分布是二项分布的极限
工作中用到的比较少,比二项分布还少
例如:

  • 某企业中每月某设备出现故障的次数
  • 单位时间内到达某一服务台需要服务的顾客人数

举个例子

小王的婶婶新开了一个包子铺,生意还不错,但是有一天小王去买包子,看见婶婶一筹莫展,问其原因,原来是因为包子铺6点-10点营业,这一周头有两天包子蒸少了,不到8点就卖完了,后来吸取教训蒸多了,又因为卖不完而不新鲜了,早上6点-10点到底蒸多少包子合适呢?

还好小王学过统计学,婶婶把馒头数据简单假设如下:
image

我们想一想,首先能不能用均值,我们算一下平均数
image
如果按照平均数,则5天中有2天都供不应求,这个不太合适
image

这可该怎么办?

我们换个思路,包子在6点-10点之间,每个包子的命运只有两个结果,要么卖出了,要么没卖出,那我们可以把6点-10点这个时间段当成一条有长度的线,假设分成20等份,假设每个时间段上放一个包子,要么卖出去了,要么没卖出去,类似于抛8次硬币,要么出现正面,要么出现反面,我们计算一下,卖出去7个包子的概率,利用二项分布公式

image
如果我们把时间段分成n等份,则卖出7个包子的概率为
image

运用极限,把时间段分的越细越好,并计算在这个时间段内卖出 k 个馒头的概率为:
image
对于这个p该怎么计算呢?
我们知道它服从二项分布,二项分布的期望为np,则
image
因此
image

推导过程(了解就行):
image
image
假设每天准备65个包子,μ在这里可以直接使用均值50来计算,最后得出

概率为98.2%,其实大部分时候我们基本能满足每天的需求,因为数据量小,所有可能实际意义不是很明显,这里只是为了教学参考。

Excel使用Poisson.dist函数计算结果:
image
函数介绍
=POISSON.DIST(65,B8,TRUE)
POISSON.DIST(x,mean,cumulative)

OISSON.DIST 函数语法具有下列参数:

  • X 必需。 事件数。
  • Mean 必需。 期望值。
  • cumulative 必需。 一逻辑值,确定所返回的概率分布的形式。 如果 cumulative 为 TRUE,则 POISSON.DIST 返回发生的随机事件数在零(含零)和 x(含 x)之间的累积泊松概率;如果为 FALSE,则 POISSON 返回发生的事件数正好是 x 的泊松概率密度函数。

泊松分布是二项分布的极限

在n重伯努利实验中,当成功的概率很小,实验次数很大时,二项分布可近似等于泊松分布

在实际应用中,当p<=0.25,n>20,np<=25时,用泊松分布近似二项分布的效果良好
image

posted @   VipSoft  阅读(300)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 实操Deepseek接入个人知识库
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
点击右上角即可分享
微信分享提示