概率笔记5——概率分布

　　分布函数（英文Cumulative Distribution Function, 简称CDF），是概率统计中重要的函数，正是通过它，可用数学分析的方法来研究随机变量。分布函数是随机变量最重要的概率特征，分布函数可以完整地描述随机变量的统计规律，并且决定随机变量的一切其他概率特征。

从事件到函数

　　我们已经很清楚函数的概念，g = g(x)是一个典型的函数，输入数据经过g(x)的处理后得到了一个新的输出g。在概率当中，也存在类似的定义。

　　例如一个样本空间有一系列随机事件Ω = {ω₁, ω₁, ω₁ …ω_n}，那么将存在一个函数，这个函数把事件映射为一个实数：

　　这样做是为了用数学去表达事件——函数最终将转换为数，有了数，我们就能利用很多已知的工具去处理概率问题。如果Ω表示球队的比赛事件，那么Ω = {胜，负，平}，一个典型的X转换就是：胜→1，负→-1，平→0。二进制的0和1也能表达很多诸如开/关、升/降等事件。

分布函数

　　有了函数X，就可以进而将事件的概率转换为普通的函数，于是有了分布函数的定义：

　　F(x)就是分布函数，它表示X ≤ x的概率。举例来说，如果一个人的身高是1.75m，这个人的身高在全国的分布就是所有小于等于1.75m的人在全国的比例。看起来英文Cumulative Distribution Function更容易理解，F(x)就是概率的积累。

　　需要注意的是，此处的大X和小x都是一个具体的实数，小x的取值范围是 -∞ ≤ x ≤ +∞，这是一个什么梗？

　　这要从坐标系说起了。

　　上图中的曲线是f(x)，-∞ < x < +∞，对于任意的x，都有一个y能够对应。同样，对于概率分布函数F(x)来说，我们也希望对任意的x都能找到对应的y，也就是P(X≤x)。别忘了，我们的目的是将事件转换为数，从而将概率转换为函数。从概率的角度来讲，-∞ < x < +∞表示了概率的全部事件。

离散型分布

离散事件

　　离散型事件指事件可能的取值是有限个或可列无穷个。

　　有限个好理解，比如骰子的结果。可列无穷个有意思了，它指值能够例举出来，但是永远无法全部列举，自然数和整数就是这样的例子。

　　这里有个好玩的事，整数是无穷的，自然数也是无穷的，那么整数和自然数的数量哪个更多呢？

　　第一感觉是整数更多，多了一倍。但真相是，二者的数量一样多。这就要了解数学中是怎样定义“一样多”的。在数学中，如果两个集合能够产生一一对应的关系，我们就可以说这两个集合的数据一样多。这个对应关系可以用一个函数表示，比如整数和自然数的对应可以是这样：

　　无论哪一个整数，都能在自然数中找到唯一的对应。

　　整数和实数呢？实数的个数要远远大于整数，它们无法产生一一对应，因为每两个实数间都有无穷多个数。这就又引出一个问题，实数的个数与[-1, 1]区间内的实数个数哪个多呢？第一感觉又是实数多，但实际上二者的个数相等。这个匪夷所思的问题可以用下图表示，说明二者一一对应：

　　上图是一个数轴，数轴上的每一个点都代表一个实数；现在把-1到1之间的线段的向上弯折，得到一个与0点相切，弧长是2的红色圆弧。现在，把数轴上的任意点与弧连线，都可以在弧上找到唯一点：

　　由此可见，二者的数量相等，准确的说是“势”相等。

分布函数

　　离散事件的每个取值都对应一个概率，它的分布率大概长成这个样子：

　　它的分布函数：

　　在所有的分布函数中，x的取值范围都是关键，它强调了“事件”到“函数”的转换。

　　在射击比赛中，有大、中、小三类目标供选择，各类目标的得分和命中率如下：

　　其中score对应了x的取值，rate对应分布值F(x)，F(x)的分布曲线如下：

　　这里又一次强调了分布函数F(x)中x的取值是从-∞到+∞。当x<1时，表示没有任何目标可供射击，命中率是0； x ≤ 2时，命中中型和中型以下目标的概率是F(2) = P(middle) + P(small) = 1/3 + 1/2 = 5/6；x ≥ 5时，变成了必然事件，F(x) = 1。

　　我们看到F(x)的取值是[0, 1]，这也是概率的取值范围；这种阶梯式的函数就是离散型随机事件的分布函数。

连续型分布

连续事件

　　相对于离散事件，连续事件就是随机事件是连续型的事件。这是通俗解释，看起来没错，但并不精确。

　　在精确定义之前先来看一个好玩的例子：一个人会在9:00~10:00到达某地，他恰巧在9:30抵达的概率是多少？

　　似乎很简单，但实际上不是那么回事，问题出在时间的度量上。前面说过，0~1之间的实数有无穷多个，同样，由于我们并没有指定时间的最小刻度，所以9:00~10:00之间的也有无穷多个，这相当于样本空间的事件有无穷个。如果用几何概型思考——将概率转换为长度的比例——我们会发现，9:30是时间轴上的一点，点的长度是0，所以P{9:30抵达} = 0。过去一直认为0概率是不肯能发生的事件，而现在看来并不是，因为确实存在9:30抵达的可能，这有点像极限问题了，极限是0，说明无限接近0，但始终不是0。

　　似乎出现悖论了，无数个点加在一起变成了线，点的概率又是0，那么连续事件的分布岂不是无数个0相加最终还是0？

　　解释前先写出连续事件的精确定义：对于某一X，如果存在非负可积函数f(x)，使得