概率论基础学习笔记

参考: 胡渊明2013国家集训队论文浅析信息学竞赛中概率论的基础与应用

概率空间

初等概率论有三个重要成分, 分别是样本空间\(\Omega\)(我们一般记其每个元素为\(\omega\)), 事件集合\(F\)和概率测度\(P\). 我们常说的事件, 实际上是样本空间\(\Omega\)的某个子集. 所有事件的集合记为\(F\)(所以说\(F\)是集合的集合)实际上我对事件集合的定义还不是很明确. 概率测度\(P\)是事件集合到实数的一个函数, 一个合理的概率测度需要满足以下3条公理:

  • 对于任意事件\(A\), 有\(P(A) \ge 0\)(非负性)
  • \(P(\Omega) = 1\)(规范性)
  • 对于事件\(A\)\(B\), 假如有\(A \cap B = \Phi\), 则有\(P(A \cup B) = P(A) + P(B)\)(可加性)

我们称符合要求的三元组\((\Omega, F, P)\)为概率空间. 典型的例子是: 我们随机投掷一个均匀的骰子, 考虑其落地后朝上的面, 则我们有样本空间\(\Omega = \{ 1, 2, 3, 4, 5, 6 \}\), 事件集合为\(\Omega\)的幂集, 概率测度有\(P(A) = \frac{|A|}6\).

条件概率

举个例子: 现有两所人数相同的学校, A学校99%是女生, B学校99%是男生. 那么, 假如我们在两所学校中随机抽出一位同学, 那么这位同学是男生的概率是多少?
50%, 显而易见.
但是, 假如现在告诉你, 你抽出的这位同学是B学校的, 那么答案又会变成多少呢?
99%.
由此可见, 当我们得到了更多的信息后, 事件的概率是会发生改变的.
我们记已知\(B\)事件发生的条件下, \(A\)事件发生的概率为\(P(A | B)\). 比如说, 在上面的例子中, 选出两所学校的事件分别为\(U_A\)\(U_B\), 我们令选出的学生分别为男生和女生的事件分别为\(G_M\)\(G_F\), 则我们有

\[P(G_M) = 50 \% \\ G(G_M | U_B) = 99 \% \]

而我们有如下计算条件概率的公式:

\[P(A | B) = \frac{P(AB)}{P(B)} \]

稍作变形得到

\[P(A | B) P(B) = P(AB) \]

这个公式也很常用.
注意上面的\((AB)\)表示\((A \cap B)\), 同时也可以写作\((A, B)\). 实际上, 在考虑条件概率时, 我们把\(B\)看作了新的样本空间, 而上述的公式揭示的是两个样本空间下概率测度的关系.

全概率公式

我们令\(B_1, B_2, ..., B_n\)为样本空间\(\Omega\)的一个划分, 则有

\[P(A) = \sum_{k = 1}^n P(A | B_k) P(B_k) \]

比如说, 考虑上面的例子中的\(50 \%\)是如何得到的:

\[\begin{aligned} P(G_M) &= P(G_M | U_A) P(U_A) + P(G_M | U_B) P(U_B) \\ &= 1 \% \times 50 \% + 99 \% \times 50 \% \\ &= 50 \% \end{aligned} \]

随机变量

首先明确定义:

\[函数X: \Omega \Rightarrow \mathbb{R} \text{被称为一个随机变量} \]

在多数情况下, 有了随机变量就可以抛弃对原来样本空间的关注, 而是关注于对于每个实值, 随机变量可以取得该值的概率. 从某种意义上说, 这是一个对样本空间重新划分(提到划分, 是否有想到前面全概率公式中\(B\)的定义?)的过程, 将在这个函数中取得相同值的元素进行了合并.
随机变量有这样一个表达:

\[(X = x) = \{ \omega | \omega \in \Omega且X(\omega) = x \} \]

随机变量的期望

对于一个随机变量, 其期望为

\[E[x] = \sum_\omega P(\omega) X(\omega) = \sum_x x P(X = x) \]

这样一来, 对于许多问题我们就不再需要从样本空间的角度去考虑随机变量了, 而是直接考虑随机变量为某个值的事件.

两个随机变量的期望的独立性以与乘积的期望

随机变量的独立性是指其输出层面上的独立性, 对于两个随机变量\(X_1\)\(X_2\), 假如有

\[\forall x_1 \in X_1(\Omega), x_2 \in X_2(\Omega) \\ P(X_1 = x_1, X_2 = x_2) = P(X_1 = x_1) P(X_2 = x_2) \]

那么我们就称\(X_1\)\(X_2\)是独立的.
两个独立的随机变量具有一个重要的性质: 其积的期望等于期望的积.

期望的线性性质

\[E[\alpha X_1 + \beta X_2] = \alpha E[X_1] \beta E[X_2] \]

这个性质在竞赛中十分常用.

全期望公式

给定一个类似于条件概率的问题: 假如我们知道事件\(A\)一定发生, 那么样本空间\(\Omega\)上的随机变量\(X\)会发生什么变化?
我们记这个受约束的随机变量为\(X | A\), 那么对于\(\forall x \in X(\Omega)\), 我们有

\[P((X | A) = x) = \frac{P(X = x, A)}{P(A)} \]

然后下面的就是大名久仰的全期望公式:

\[E[E[X | Y]] = X[X] \]

首先这里需要明确\(E[X | Y]\)的定义: 它相当于一个新的随机变量, 其期望表示

\[E[X | Y] = \sum_{y \in Y(\Omega)} E[X | Y = y] P(Y = y) \]

定理的证明如下:

\[\begin{aligned} E[E[X|Y]] &= \sum_{y \in Y(\Omega)} E[X | Y = y] P(Y = y) \text{\\根据定义} \\ &= \sum_{y \in Y(\Omega)} \sum_{x \in X(\Omega)} x P(X = x | Y = y) P(Y = y) \text{\\根据期望的定义} \\ &= \sum_{x \in X(\Omega)} x \sum_{y \in Y(\Omega)} P(X = x | Y = y) P(Y = y) \\ &= \sum_{x \in X(\Omega)} x P(X = x) \text{\\根据全概率公式. 这一步是关键} \\ &= E[X] \end{aligned} \]

这条公式有什么用呢? 举个例子: 考虑在一个年级中抽取一个人, 询问他上次考试的成绩, 则这个数值的期望是多少? 我们应该怎样求?
我们令随机变量\(X(\omega)\)表示每个人上次考试的分数, 并构造一个随机变量\(Y(\omega)\)表示每个人所属于的班级, 则有\(E[X] = E[E[X | Y]] = E[X | Y = y] P(Y = y)\), 其中\(E[X | Y = y]\)表示每个班中取一个人的乘积的期望值. 根据这个公式, 我们只需要算出每个班的平均成绩, 再算一次加权平均即可.

到这里, 要写的基本上已经写完了. 但是又有什么用呢? OSU照样还是不会做, 全期望公式还是不会用... 以后看起来是要找一些概率论相关的书来好好看看了.


Edit Aug 19, 2017: 这里的全期望公式还是很容易理解的. 我们不必在意上面的表述形式, 因为其本质和全概率公式是一样的, 把样本空间进行划分后求出每个划分的期望, 再加权平均得到的结果等于直接求所有样本的期望的结果. 只不过在期望问题中, 我们通常按照随机变量得到的值进行划分, 而不是直接划分样本空间, 仅此而已.

posted @ 2017-08-16 16:35  Zeonfai  阅读(1735)  评论(0编辑  收藏  举报