概率统计13——二项分布与多项分布

原文 | https://mp.weixin.qq.com/s/bOchsmHTINKKlyabCQKMSg

伯努利分布

　　如果随机试验仅有两个可能的结果，那么这两个结果可以用0和1表示，此时随机变量X将是一个0/1的变量，其分布是单个二值随机变量的分布，称为伯努利分布。注意伯努利分布关注的是结果只有0和1，而不管观测条件是什么。

性质

　　设p是随机变量等于1的概率，伯努利分布有一些特殊的性质：

　　将上面的两个式子合并：

　　伯努利变量是离散型，并且是一个0/1变量，它的数学期望是：

　　方差是：

极大似然

　　最大似然估计(概率10)

　　对于伯努利分布的质量函数来说，p是唯一的参数。如果给定N个独立同分布的样本 {x⁽¹⁾, x⁽²⁾, ……, x^(N)}，x^(t)是投硬币的结果，是随机变量，x^(t)ϵ{0, 1}，可以通过极大似然估计，根据样本推测出p的取值：

　　取对数似然函数：

　　这是个符合直觉的结果，即使没学过概率和极大似然也能得出这个结论。

二项分布

　　假设某个试验是伯努利试验，成功概率用p表示，那么失败的概率为1-p。现在进行了N次这样的试验，成功了x次，失败了N-x次，发生这种情况的概率是多少？

质量函数

　　对于每次实验来说，成功的概率都是p，失败的概率是1-p。假设已经完成了N次试验，并且前x次都成功了，后N-x次都失败了：

　　x次成功的情况当然不止一种，比如成功和失败交叉在一起：

　　这种成功和失败的排列顺序共有种不同的情况，因此对于任意N次伯努利试验，成功了x次的概率是：

　　的另一种记法是。

　　P(x)就是二项分布的质量函数，是N次伯努利试验中取得x次成功的概率。

性质

　　二项分布的均值和方差分别为Np和Np(1-p)。

　　从二项分布的质量函数P(x)可知，概率分布只与试验次数N和成功概率p有关，p越接近0.5，二项分布将越对称。保持二项分布试验的次数N不变，随着成功概率p逐渐接近0.5，二项分布逐渐对称，且近似于均值为Np、方差为Np(1-p)的正态分布：

多项分布

　　多项分布是二项分布的扩展，其中随机试验的结果不是两种状态，而是K种互斥的离散状态，每种状态出现的概率为p_i，p₁ + p₁+ … + p_K = 1，在这个前提下共进行了N次试验，用x₁~x_K表示每种状态出现次数，x₁ + x₂ + …+ x_K= N，称X=(x₁, x₂, …, x_K)服从多项分布，记作X~PN(N：p₁, p₂,…,p_n)。