多项分布概率公式的理解
多项分布是二项分布的推广。二项分布(也叫伯努利分布)的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。而多项分布就像扔骰子,有6个面对应6个不同的点数。二项分布时事件X只有2种取值,而多项分布的X有多种取值,多项分布的概率公式为
P(X1=x1,⋯,Xk=xk)={n!x1!,⋯,xk!px1⋯pxkwhen∑ki=1xi=n0otherwise.
这个公式看上去像是莫名其妙地冒出来的,想要了解它首先必须要知道组合数学中的多项式定理。
多项式定理:当n是一个正整数时,我们有
(x1+x2+…+xk)n=∑n!r1!r2!⋯rk!xr11…xrkk
其中r1+…+rk=n,ri≥0。
这个多项式定理的推导如下,将式子左边展开
(x1+x2+…+xk)n=(x1+x2+…+xk)⋯(x1+x2+⋯+xk)
这样的话,我们可以把问题看成在n个式子里,先选取r1个x1,然后选取r2个x2,最后选取rk个xk,然后求有多少种方法。类似把n个球放到k个不同的盒子里的方法有多少种,我们得到
Cr1,r2,…rkn=Cr1nCr2n−r1…Crkn−r1…−rk−1=n!r1!r2!…rk!
所以xr11xr22…xrkk的系数为Cr1,r2,…rkn,这样,我们就能得到展开式的通式。举个例子,当k=2时,我们就得到了常见的二项式公式:
(a+b)n=∑i=0nCinaibn−i
再来看之前的多项分布的概率公式,假设X1,X2,…,Xk发生的概率为p1,p2,…,pk,由于事件之间是相互独立的,可得p1+p2+…+pk=1。 我们将p1+p2+…+pk=1式子的左边看做一次抽样各种事件发生的概率和,那么(p1+p2+…+pk)n=1n=1则是进行了n次抽样所有事件相互组合的对应概率和。把这个多项式展开,它的每一项都对应着一个特殊事件的出现概率。我们把展开式的通项作为X1出现x1次,X2出现x2次,…,Xk出现xk次的这种事件的出现概率,这样就得到了多项分布的概率公式。