title: 【概率论】3-6:条件分布(Conditional Distributions Part II)
categories:

  • Mathematic
  • Probability
    keywords:
  • Multiplication Rule for Distributions
  • 乘法法则
  • Bayes’ Theorem
  • 贝叶斯理论
  • Law of Total Probability for Random Variables
  • 随机变量的全概率公式
    toc: true
    date: 2018-03-12 09:06:00


Abstract: 本文介绍联合分布的构建,也就是条件分布部分的扩展和应用
Keywords: 乘法法则,贝叶斯定理,随机变量的全概率公式

开篇废话

今天这篇是上一篇的后半部分,其实应该是一篇,但是上一篇由于长时间没写博客导致写作速度下降,所以不得已分成两篇,最近除了写概率的博客,还有数学分析的博客,CUDA系列的也在更新,所以有点要累吐血的感觉,同时还在学习数理统计,数理统计用的是陈希孺先生的概率论与数理统计的数理统计部分,看了二十几页,发现他说的90%我基本都能看懂,但是真的不知道为啥上大学的时候,有老师讲还一脸懵x,是我智商进化了?还是书本难度降低了?这个就不得而知了,除非把大学教材重新拿过来比较一下,那就有点浪费时间了,我的目标是学好数学去研究机器学习,而不是做教材点评,难道不是么?

Multiplication Rule for Conditional Probability

乘法法则我们在事件的概率部分学过了传送到条件概率,也是通过条件概率过度出来的,并且乘法法则相对于条件概率适用面更广,因为条件概率有除法计算,所以必然会对概率为0的分母有所忌惮,但是乘法法则无所谓,0可以随便来:
Pr(AB)=Pr(A,B)Pr(B) for Pr(B)0Pr(A,B)=Pr(AB)×Pr(B) for Pr(B)0 Pr(A|B)=\frac{Pr(A,B)}{Pr(B)} \text{ for } Pr(B)\neq 0\\ Pr(A,B)=Pr(A|B)\times Pr(B) \text{ for } Pr(B)\geq 0
根据随机变量的定义,我们知道随机变量是个函数,可以把事件映射成数字,如果我们将上面的条件概率转化成条件分布,应该怎么转呢?我们先看个例子
前面我们说过所有概率都是条件概率只是有些条件在题设中已经明确固定了,我们就没有必要再分布中再反复的体现了。
举个🌰:

  1. 还是零件加工的问题,假设我们明确的知道加工这批零件的合格率是90%(我是怎么知道?上帝说的!就是知道,这也是概率论理想情况的抽象,就像物理中的质点一样),那么我们生产了100个零件,其中合格的零件为x个的事件的概率是多少:
    分析,很简单的一个离散概率模型,设X是有零件x合格的事件,二项分布
    Pr(X=x)=(100x)0.9x(10.9)100x for  Pr(X=x)=\begin{pmatrix}100\\x\end{pmatrix}0.9^x(1-0.9)^{100-x} \text{ for }

  2. 那么这是我们的初级阶段,从初级到高级的一种变化方式就是把条件不确定化,比如上面的例子,我们条件中有两个已知数,90%和100 ,那么如果我们把100变成变量n呢?这个变量将会是一个普通的变量,或者说是输入变量,由我们自己决定。同时我们把事件转换到随机变量,那么例子就变成了
    g1(x)=(nx)0.9x(10.9)nx for x=0,1,2, g_1(x)=\begin{pmatrix}n\\x\end{pmatrix}0.9^x(1-0.9)^{n-x} \text{ for }x=0,1,2,\dots
    这种情况下,n是个普通可控制的变量,因为我们可以想象,如果你有一个工厂,生产一批零件,不管好坏,总数量肯定是你控制的,如果你控制不了,说明这个厂子你已经失去控制权了,也就是说,不管怎么样,这个n完全归我们管。那么我们下一步复杂。

  3. 我们在1中蛮横不讲理的说90%是上帝告诉我们的,那么上帝是怎么知道这个数呢?《上帝掷骰子么》,那么如果他掷骰子这个事就又要归概率论处理了,那么我们接着引入变量p作为合格率(原始例子中的90%),这个变量与n的最大差别是我们控制不了他,控制不了的就是随机的,随机的就可以用一个p.f.或者p.d.f来描述他,也就是说这个条件是要考虑其分布了,那么我们的例子近一步进化:
    g1(xp)=(nx)px(1p)nx for x=0,1,2, g_1(x|p)=\begin{pmatrix}n\\x\end{pmatrix}p^x(1-p)^{n-x} \text{ for }x=0,1,2,\dots
    又因为我们上一篇已经研究过了离散,连续,混合随机变量的条件分布,那么这个例子很明显中p是连续的,x是离散的,是个混合条件概率,那么从概率转移到分布有:
    g1(xp)=f(x,p)f2(p) g_1(x|p)=\frac{f(x,p)}{f_2(p)}
    其中 1p01\geq p\geq 0
    那么我们就有,X和P的联合p.f.或者p.d.f,若果我们假设f2(p)f_2(p) 是一个0到1区间内的均匀分布我们有:
    f(x,p)=g1(xp)f2(p)=(nx)px(1p)nx×f2(p)=(nx)px(1p)nx×1)=(nx)px(1p)nx for x=0,,n and 0p1 f(x,p)=g_1(x|p)f_2(p)=\begin{pmatrix}n\\x\end{pmatrix}p^x(1-p)^{n-x} \times f_2(p)\\ =\begin{pmatrix}n\\x\end{pmatrix}p^x(1-p)^{n-x} \times 1)=\begin{pmatrix}n\\x\end{pmatrix}p^x(1-p)^{n-x}\\ \text{ for }x=0,\dots ,n \text{ and } 0 \leq p \leq 1
    上面这个式子原文只给出:
    f(x,p)=g1(xp)f2(p)=(nx)px(1p)nx for x=0,,n and 0p1 f(x,p)=g_1(x|p)f_2(p)=\begin{pmatrix}n\\x\end{pmatrix}p^x(1-p)^{n-x} \text{ for }x=0,\dots ,n \text{ and } 0 \leq p \leq 1
    看了半天才明白,他直接把1省略掉了,为啥是1 不知道?去看分布的文章

那么我们就可以正式的提出我们的定理了:

以上为节选内容,完整原文地址https://www.face2ai.com/Math-Probability-3-6-Conditional-Distributions-P2转载请标明出处

 posted on 2018-09-22 17:08  TonyShengTan  阅读(2895)  评论(0编辑  收藏  举报