描述变量的最佳方法之一是列出该变量的数据集中至,以及每个值出现的次数,这种描述称为变量的分布。每个值出现的次数占总出现次数的比例称为该值出现的概率。通过这种正态化的处理,对变量各种出现情形的描述可以转化为各种出现情形(随机变量Z)的概率分布。

        对于离散型随机变量Z,存在一个与之相关的概率分布函数,描述Z的各个可能值k出现的相应概率值。这个函数通常称作Z的概率质量分布(probability mass function,简写为:PMF)。概率分布函数将每个值映射到其概率。对应离散型正整数Z,可以映射到浮点型的概率值。

 

       以上两张图引自《统计思维——程序员数学之概率统一》一书的第二章和第三章。已知数据是某州婴儿出生时孕妇怀孕周数的统计数据。上图为怀孕周数为k的孕妇人数统计分布,下图将人数统计分布映射到概率分布。


       上面针对离散变量z开展研究,提出了概率分布的概念。概率分布用函数描述称作概率质量函数(PMF),这种函数以随机变量z为参数,z取值为1,2,...,k,... 。

       第一个要介绍的概率质量函数为常见的Poisson函数:

      P(Z=K) = (λke)/k!    , k = 0,1,2,....

       λ被称为此分布的一个参数,它决定了这个分布的形式。对于Poisson分布来说,λ可以为任意正数。随着λ的增大,得到大值的概率会增大,反之则相反。λ被称为Poisson分布的强度。Poisoon函数被设计出来的广泛使用的原因是λ非常神奇:Poisson分布的期望值等于参数λ。

        如果一个随机变量Z存在一个Poisson质量分布,我们可以表示为:

Z~Poi(λ)

       Poisson分布的一个重要性质是:它的期望值等于它的参数。即:

E[Z|λ] = λ

       这条性质非常有用,进而为了现实问题的解决,发展到研究λ的分布。

       下面展示不同λ取值下的概率质量分布。

 

posted on 2020-03-31 09:45  海阔凭鱼跃越  阅读(249)  评论(0编辑  收藏  举报