说人话理解 伯努利分布&二项分布&泊松分布&指数分布是什么关系?

开始介绍之前还是老样子先吐槽一下教科书不说人话,喜欢端着,真是耽误了一群数学天才。

伯努利分布

伯努利分布很好理解,常见的例子就是抛硬币,假设硬币正面朝上的概率是 p,所以伯努利分布的概率质量函数(probability mass function,简写作pmf)是:

注意区分概率质量函数和概率密度函数,前者是针对离散情况而言的,后者是针对连续情况

\[f_{X}(x)=p^{x}(1-p)^{1-x}= \begin{cases}p & \text { if } x=1 \\ q & \text { if } x=0\end{cases} \]

二项分布

上面只是一个实验,如果抛10次有8次是正面朝上的概率就是 \(C_{10}^8 p^8(1-p)^2\),这个其实就是二项分布,换言之二项分布的每一个单次实验其实就是服从伯努利分布。二项分布的概率质量函数

\[f(k, n, p)=\operatorname{Pr}(X=k)=\left(\begin{array}{l} n \\ k \end{array}\right) p^{k}(1-p)^{n-k} \]

泊松分布

那泊松分布是什么呢?其实现实中很多事情都可以用泊松分布来描述,而且其实泊松分布可以简单地是伯努利分布的极限情况。

我们看一个马同学给的例子

假如你开了个馒头店,每天营业时间是早上12点到下午6点,是的你就是这么仁慈,员工得休息好才能好好上班。然后你统计了一周的顾客数量,发现每天来的人顾客数量不一样。那很自然地你就想根据来的顾客的数量来提前准备制作馒头的数量,免得顾客数量多的时候,馒头数量不够,导致钞票赚少了。同样的,如果馒头做多了,又浪费了。所以你想知道每天顾客数量是100的概率(也可以是200,400等)。要计算这个就需要用到泊松分布。

为方便计算,假设你的店新开张,总共5个顾客来消费了,分别是在1点,2点,3点,4点和6点到的,此时我们可以把整个营业时间划分成6个时间段,那么每个时间段顾客来与不来其实就是一个服从伯努利分布的随机变量。假设每个时间段内来顾客的概率是 p, 那么一天内来5个顾客的概率就是 \(C_{6}^5 p^5(1-p)^1\)

看到这你肯定在想了,那如果第一天开张来了10个顾客呢?是的,你的想法很好。此时我们可以把时间段划分的更加小,可以是秒也可以是分钟。不过单位时间的划分会影响最后计算出来的概率值,当然这也是符合直觉的。例如,一个小时内来10个顾客的概率肯定和一分钟内来10个顾客的概率一般而言是不一样的。

我们可以假设总共划分了\(n\)个时间段,当\(n\)趋于无穷小的时候,每个时间段也就趋于无穷小了,那么在这\(n\)个时间段来了\(k\)个顾客的概率(一个时间段内最多只有一个顾客出现或者没有顾客)是

\[\lim _{n \rightarrow \infty}\left(\begin{array}{l} n \\ k \end{array}\right) p^{k}(1-p)^{n-k} \]

发现了没,这不就是二项分布吗?所以这也就解释了前面我们说泊松分布可以简单地是伯努利(或二项)分布的在时间段是极限小的情况。因为我们说抛硬币的时候通常是不考虑时间的,即基本上不会说我们每分钟或者每秒抛一次硬币,而泊松分布是将时间划分成若干个时间段,而这个时间段的大小视情况而定。

因为连续时间上的泊松分布被转化成了二项分布,而二项分布的期望是

\[E(X)=np=\mu \]

所以在这\(n\)个时间段来了\(k\)个顾客的概率

\[p=\frac{\mu}{n} \]

我们把这个概率带入到上面的极限中去可以得到(推导过程省略了)

\[\lim _{n \rightarrow \infty}\left(\begin{array}{l} n \\ k \end{array}\right) p^{k}(1-p)^{n-k}=\frac{\mu^{k}}{k !} e^{-\mu} \]

可以看到当时间段趋于无穷小时,最终得到的概率是与\(n\)无关的,只跟均值和你想预测的\(k\)有关。一般会把\(\mu\)\(\lambda\)表示,所以泊松分布下的概率质量函数(注意泊松分布也是离散的概率分布)是

\[P(X=k)=\frac{\lambda^{k}}{k !} e^{-\lambda} \]

那么根据今天新开张的数据,均值\(\mu\)(或者说\(\lambda\))的值就是\(\frac{5}{6}\),开门营业的时间越久,才会评估越准确。我们用这个网站画出了概率质量函数,可以看到单位时间(该例子单位时间是一个小时)内一个顾客都没来的概率接近0.5,来2个顾客的概率只有0.151,所以说你还是趁早把店铺转租出去,好好进厂里搬砖吧。

Poission Distribution

指数分布

指数分布是从泊松分布推断出来,泊松分布考虑的是在单位时间内顾客数量平均为\(\lambda\)的情况下,单位时间内来k个顾客的概率。那么单位时刻,一个顾客都没来的概率就是\(P(X=0)=e^{-\lambda}\)。我们进一步考虑\(T\)个时间段内都没来一个顾客的概率,这个时候该如何计算呢?

注意,泊松分布假设成立的前提是事件是独立的,换言之前一时刻和后一时刻顾客数量的概率是彼此独立的。所以T个时间段内都没有顾客到达的概率可以通过将每个时间段没有顾客到达概率相乘来计算,即:

\[P(\text{No arrival in T time intervals}) = P(\text{No arrival in one time interval})^T = (e^{-\lambda})^T = e^{-\lambda T} \]

T个时间段内都没有顾客到达的概率 等价于 超过T个时间段后才有顾客到来,我们将T转换成时间变量t就得到了指数分布

\[P(t>T)=P(t>T,X=k=0)=\frac{(\lambda t)^{k}}{k !} e^{-\lambda t}=e^{-\lambda t} \]

同理,T时刻内有顾客来的概率则是

\[P(t\le T)=1-P(t>T)=1-e^{-\lambda t} \]

所以指数分布的累积分布函数是

\[F(t)= \begin{cases}1-e^{-\lambda t}, & t \geq 0 \\ 0, & t<0\end{cases} \]

\(F(t)\)求导后可以得到概率密度函数(注意这里不是概率质量函数了,因为指数分布是连续分布):

\[p(t)= \begin{cases}\lambda e^{-\lambda t}, & t \geq 0 \\ 0, & t<0\end{cases} \]

对应到上面的例子,我们在这个网站上可视化一下。\(\lambda\)是来的顾客数量平均均值,在前面的例子中,我们观察了6个小时,发现总共有5个顾客来了,那么均值\(\lambda=\frac{5}{6}\)人/小时,据此我们可以画出此时的指数分布的概率密度函数

image

因为我们上面的例子考虑的是每小时的顾客数,所以\(x=1\)时,计算得到的\(p(X>1)\)表示1小时都没有顾客(即大于1小时才有可能来顾客)的概率是0.4346,这表示你开的店每小时大概率还是有人会来关顾的哈哈哈

注意泊松分布和指数分布的前提是,事件之间不能有关联,否则就不能运用上面的公式。

总结

伯努利分布 > 二项分布 > 泊松分布 > 指数分布 就是一个个套娃的关系。

微信公众号:AutoML机器学习
MARSGGBO原创
如有意合作或学术讨论欢迎私戳联系~
邮箱:marsggbo@foxmail.com

2022-04-16 22:29:56

posted @ 2022-04-17 13:59  marsggbo  阅读(949)  评论(1编辑  收藏  举报