斯坦福 CS228 概率图模型中文讲义二、概率复习

二、概率复习

原文：Probability review

译者：飞龙

协议：CC BY-NC-SA 4.0

自豪地采用谷歌翻译

我们在这里复习概率的概念，所有复习材料都来自 CS229 概率讲义。

1. 概率的基本元素

为了定义集合上的概率，我们需要一些基本元素，

样本空间Ω：随机实验所有结果的集合。在这里，每个结果ω ∈ Ω可以看作实验结束时真实世界状态的完整描述。

事件集合（或事件空间）F：一个集合，其元素A ∈ F（称为事件）是Ω的子集（即A ⊆ Ω是实验可能结果的集合）

概率测度：满足以下属性的函数P: F → R：

对于所有A ∈ F，P(A) ≥ 0，
如果A1, A2, ...是不相交事件（也就是i ≠ j时Ai ∩ Aj = ∅）， $P(\bigcup_i A_i) = \sum_i P(A_i)$ 。
P(Ω) = 1。

这三个属性被称为概率公理。

例如：考虑抛掷六面骰子的事件。样本空间是Ω = {1,2,3,4,5,6}。我们可以在这个样本空间上定义不同的事件空间。例如，最简单的事件空间是平凡事件空间F = {∅, Ω}。另一个事件空间是Ω的所有子集的集合。对于第一个事件空间，满足上述要求的唯一概率测度由P(∅) = 0，P(Ω) = 1给出。对于第二个事件空间，一个有效的概率测度是将事件空间中每个集合的概率分配为i/6，其中i是该集合中元素的数量；例如，P({1,2,3,4}) = 4/6，P({1,2,3}) = 3/6。

性质：

如果A ⊆ B，P(A) ≤ P(B)。

$P(A \cap B) \leq min(P(A), P(B))$ 。

$P(A \cup B) \leq P(A) + P(B)$ 。

$P(\Omega - A) = 1 - P(A)$ 。

全概率公式：如果 $A_1, . . . , A_k$ 是一系列不相交时间，并且 $\bigcup^k_{i=1} A_i = \Omega$ ，那么 $\sum^k_{i=1} P(A_i) = 1$ 。

1.1 条件概率

设B是概率非零的事件。在B条件下任何事件A的概率定义为：

$P(A \mid B) = \frac {P(A \cap B)}{P(B)}$

换句话说，P(A|B)是观察到事件B发生后，事件A的概率测度。

1.2 链式法则

设 $S_1, \cdots, S_k$ 为事件， $P(S_i) >0$ ：

$\begin{aligned} & P(S_1 \cap S_2 \cap \cdots \cap S_k) \\ = & P(S_1) P(S_2 | S_1) P(S_3 | S_2 \cap S_1 ) \cdots P(S_k | S_1 \cap S_2 \cap \cdots S_{k-1}) \end{aligned}$

要注意对于k = 2个事件，这就是条件概率的定义：

$P(S_1 \cap S_2) = P(S_1) P(S_2 | S_1)$

一般来说，它是通过多次应用条件独立性定义而得到的，如下例所示：

$\begin{aligned} & P(S_1 \cap S_2 \cap S_3 \cap S_4) \\ = & P(S_1 \cap S_2 \cap S_3) P(S_4 \mid S_1 \cap S_2 \cap S_3) \\ = & P(S_1 \cap S_2) P(S_3 \mid S_1 \cap S_2) P(S_4 \mid S_1 \cap S_2 \cap S_3) \\ = & P(S_1) P(S_2 \mid S_1) P(S_3 \mid S_1 \cap S_2) P(S_4 \mid S_1 \cap S_2 \cap S_3) \end{aligned}$

1.3 独立

当且仅当P(A ∩ B)=P(A)P(B)（或与之等价，P(A|B)=P(A)）时，两个事件才称为独立。因此，独立性相当于说，B的观察对A的概率没有任何影响。

2. 随机变量

考虑投掷 10 个硬币的实验，并且我们想知道硬币的正面次数。这里，样本空间Ω的元素是正面和反面的长度为 10 的序列。例如，我们可能有ω0=⟨H,H,T,H,T,H,H,T,T,T⟩ ∈ Ω。但是，在实践中，我们通常不关心获得正面和反面的任何特定序列的可能性。相反，我们通常关心结果的实值函数，比如 10 次掷骰中出现的正面数量，或者最长连续反面的长度。这些函数在一些技术条件下被称为随机变量。

更正式来说，随机变量X是函数X： Ω → R。通常，我们将使用大写字母X(ω)或更简单的X（隐含了随机结果ω的依赖）来表示随机变量。我们将使用小写字母x表示随机变量的值。

例如：在我们的上述实验中，假设X(ω)是投掷序列ω中出现的正面数量。由于只抛了 1 0个硬币，X(ω)只能取有限数量的值，所以它被称为离散随机变量。这里，与随机变量X相关的集合，取某个特定值k的概率为P(X=k):=P({ω:X(ω)=k})。

例如：假设X(ω)是一个随机变量，表示放射性粒子衰变所需的时间。在这种情况下，X(ω)具有无限多的可能值，所以它被称为连续随机变量。我们将X取两个常实数a和b（其中a<b）之间的值的概率，表示为为P(a≤X≤b):=P({ω:a≤X(ω)≤b})。

2.1 累积分布函数

为了说明处理随机变量时使用的概率测度，指定替代函数（CDF，PDF 和 PMF）通常很方便，概率测度从中控制实验 [?]。在本节和接下来的两节中，我们依次描述这些类型的函数。累积分布函数（CDF）是一个函数 $F_X : \mathbb{R} \rightarrow [0, 1]$ ，它将概率测度指定为：

$F_X(x) = P(X \leq x)$

通过使用这个函数，可以计算任何事件的概率。

性质：

$0 \leq F_X(x) \leq 1$

$lim_{x \rightarrow -\infty} F_X(x) = 0$

$lim_{x \rightarrow \infty} F_X(x) = 1$

$x \leq y %u21D2 F_X(x) \leq F_X(y)$

2.2 概率质量函数

当随机变量X取可能值的有限集合（即X是离散随机变量）时，表示随机变量相关的概率测度的更简单方法是，直接指定随机变量可以取的每个值的概率。特别来说，概率质量函数（PMF）是函数 $p_X : \Omega \rightarrow \mathbb{R}$ ，使得 $p_X(x) = P(X = x)$ 。

在离散随机变量的情况下，我们使用符号Val(X)来表示随机变量X可以取的可能值集合。例如，如果X(ω)是一个随机变量，表示十次硬币投掷中的正面数量，则Val(X)={0,1,2,...,10}。

性质：

$0 \leq p_X(x) \leq 1$

$\sum_{x \in Val(X)} p_X(x) = 1$

$\sum_{x \in A} p_X(x) = P(X \in A)$

2.3 概率密度函数

对于一些连续的随机变量，累积分布函数 $F_X(x)$ 在任何地方都是可微的。在这些情况下，我们将概率密度函数或 PDF 定义为 CDF 的导数，即，

$f_X(x) = \frac{dF_X(x)}{dx}$

这里注意，连续随机变量的 PDF 可能并不总是存在（即，如果 $F_X(x)$ 不在任何都可微）。

根据微分的性质，对于非常小的δx，

$P(x \leq X \leq x + \delta x) %u2248 f_X(x)\delta x$

CDF 和 PDF（当它们存在时）都可用于计算不同事件的概率。但是应该强调的是，在任何给定点x处 PDF 的值不是该事件的概率，即 $f_X(x) \neq P(X = x)$ 。例如， $F_X(x)$ 可以取大于 1 的值（但是在 R 的任何子集上的积分最大为 1）。

性质：

$f_X(x) \geq 0$

$\int^{\infty}_{-\infty} f_X(x) = 1$

$\int_{x \in A} f_X(x) dx = P(X \in A)$

2.4 期望

假设X是离散随机变量，PMF 为 $p_X(x)$ ，并且g: R→R是任意函数。在这种情况下，g(X)可以看做一个随机变量，我们将g(X)的期望定义为：

$E[g(X)] = \sum_{x \in Val(X)} g(x)p_X(x)$

如果X是连续随机变量，PDF 为 $f_X(x)$ 的，那么g(X)的期望值定义为，

$E[g(X)] = \int^{\infty}_{-\infty} g(x)f_X(x)dx$

直观地说，g(X)的期望可以认为是g(x)可以取的不同值的“加权平均值”，其中权重是 $p_X(x)$ 或 $f_X(x)$ 。作为上述的一个特例，注意随机变量本身的期望E[X]是通过使g(x) = x找到的；这也被称为随机变量X的均值。

性质：

对于任何常数a ∈ R，E[a]=a。

对于任何常数a ∈ R，E[af(X)]=aE[f(X)]。

（期望的线性关系）E[f(X)+g(X)]=E[f(X)]+E[g(X)]。

对于离散随机变量X，E[1{X=k}]=P(X=k)。

2.5 方差

随机变量X的方差是随机变量X的分布在其平均值附近集中程度的度量。形式上，随机变量X的方差定义为 $Var[X] = E[(X - E[X])^2]$ 。

使用前一节中的性质，我们可以得出一个替代表达式：

$& E[(X - E[X])^2] \\ = & E[X^2 - 2E[X]X + E[X]^2] \\ = & E[X^2] - 2E[X]E[X] + E[X]^2 \\ = & E[X^2] - E[X]^2$

其中第二个等式遵循期望的线性关系，以及E[X]实际上对于外部期望来说是常数。

性质：

对于任何常数a ∈ R，Var[a]=0。

对于任何常数a ∈ R， $Var[af(X)] = a^2 Var[f(X)]$ 。

示例：计算均匀随机变量X的均值和方差，其中 PDF 为 $f_X(x) = 1, \forall x \in [0, 1]$ ，其余为 0。

$E[X] = \int^{\infty}_{-\infty} x f_x(x) dx = \int^1_0 x dx = \frac{1}{2}$

$E[X^2] = \int^{\infty}_{-\infty} x^2 f_X(x)dx = \int^1_0 x^2 dx = \frac{1}{3}$

$Var[X] = E[X^2] - E[X]^2 = \frac{1}{3} - \frac{1}{4} = \frac{1}{12}$

示例：假设某个子集A ⊆ Ω满足g(x) = 1 {x∈A}。E[g(X)]是多少？

离散情况：

$E[g(X)] = \sum_{x \in Val(X)} \mathbf{1} \{x \in A \} P_X(x)dx = \sum_{x \in A} P_X(x)dx = P(X \in A)$

连续情况：

$E[g(X)] = \int_{-\infty}^{\infty} \mathbf{1} \{x \in A \} f_X(x) dx = \int_{x\in A} f_X(x) dx = P(X \in A)$

2.6 一些常见的随机变量

离散随机变量

X~Bernoulli(p)（其中0≤p≤1）：如果正面概率为p的硬币出现正面，则为 1，否则为 0。

$p(x)=\begin{cases} p, & \text{if }x = 1. \\ 1-p, & \text{if }x = 0. \end{cases}$

X~Binomial(n, p)（其中0≤p≤1）：正面概率为p的硬币n次独立投掷的正面数量。

$p(x) = C_{n}^{x}\ p^x (1-p)^{n-x}$

X~Geometric(p)（其中p>0）：概率为p的硬币直到出现一次正面的投掷次数。

$p(x) = p(1 - p)^{x-1}$

X~Poisson(λ)（其中λ>0）：用于建模罕见事件频率的，非负整数上的概率分布。

$p(x) = e^{-\lambda} \frac{\lambda^x}{x!}$

连续变量

X~Uniform(a, b)（其中a<b）：实线上a和b之间每个值都有相等的概率密度。

$f(x)=\begin{cases} \frac{1}{b-a}, & \text{if }a \leq b.\\ 0, & \text{otherwise}. \end{cases}$

X~Exponential(λ)（其中λ>0）：非负实数上的衰减概率密度。

$f(x)=\begin{cases} \lambda e^{-\lambda x}, & \text{if }x \geq 0.\\ 0, & \text{otherwise}. \end{cases}$

X~Normal(μ, σ^2)：也叫高斯分布。

$f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

3. 两个随机变量

到目前为止，我们已经考虑了单个随机变量。然而，在很多情况下，我们在随机实验过程中有兴趣知道的数量可能不止一个。例如，在掷硬币十次的实验中，我们可能会关心X(ω)=出现的正面数量，以及Y(ω)=最长的连续正面长度。在本节中，我们考虑两个随机变量的设定。

3.1 联合和边缘分布

假设我们有两个随机变量X和Y。处理这两个随机变量的一种方法是，分别考虑它们中的每一个。如果我们这样做，我们只需要 $F_X(x)$ 和 $F_Y (y)$ 。但是如果我们想知道，在随机实验的结果中，X和Y可以同时取的值，我们需要一个更复杂的结构，称为X和Y的联合累积分布函数，定义为：

$F_{XY} (x, y) = P(X \leq x, Y \leq y)$

可以看出，通过了解联合累积分布函数，可以计算涉及X和Y的任何事件的概率。

联合 CDF $F_{XY} (x, y)$ 和各变量的分布函数 $F_X(x)$ 和 $F_Y (y)$ 的关系是：

$F_X(x) = lim_{y \rightarrow \infty} F_{XY} (x, y)dy$

$F_Y(y) = lim_{x \rightarrow \infty} F_{XY} (x, y)dx$

这里，我们将 $F_X(x)$ 和 $F_Y (y)$ 称为 $F_{XY} (x, y)$ 的边缘累积分布函数。

性质：

$0 \leq F_{XY} (x, y) \leq 1$

$lim_{x,y\rightarrow \infty} F_{XY} (x, y) = 1$

$lim_{x,y\rightarrow -\infty} F_{XY} (x, y) = 0$

$F_X(x) = lim_{y \rightarrow \infty} F_{XY} (x, y)$

3.2 联合和边缘概率质量函数

如果X和Y是离散随机变量，那么联合概率质量函数 $p_{XY} : \mathbb{R} \times \mathbb{R} \rightarrow [0, 1]$ 定义为：

$p_{XY}(x, y) = P(X = x, Y = y)$

这里，对于所有x和y， $0 \leq P_{XY}(x, y) \leq 1$ ，并且 $\sum_{x \in Val(X)} \sum_{y \in Val(Y)} P_{XY}(x, y) = 1$ 。

两个变量的联合 PMF 与每个变量的概率质量函数分别是什么关系？事实证明：

$p_X(x) = \sum_y p_{XY} (x, y)$

$p_Y (y)$ 也是类似。在这种情况下，我们将 $p_X (x)$ 称为X的边缘概率质量函数。在统计中，通过将另一个变量求和来形成一个变量的边缘分布的过程，通常称为“边缘化”。

3.3 联合和边缘概率密度函数

让X和Y为两个连续随机变量，联合分布函数为 $F_{XY}$ 。在 $F_{XY}(x, y)$ 对x和y随处可微的情况下，我们可以定义联合概率密度函数：

$f_{XY}(x, y) = \frac{\partial^2F_{XY}(x, y)}{\partial x \partial y}$

和一维情况类似， $f_{XY} (x, y) \neq P(X = x, Y = y)$ ，而是：

$\int \int_{(x,y) \in A} f_{XY} (x, y)dx dy = P((X, Y ) \in A)$

请注意，概率密度函数 $f_{XY}(x, y)$ 的值始终是非负的，但可能会大于 1。它仍然必须满足：

$\int^{\infty}_{-\infty} \int^{\infty}_{-\infty} f_{XY}(x,y) = 1$

类似于离散情况，我们将：

$f_X(x) = \int^{\infty}_{-\infty} f_{XY} (x, y)dy$

定义为X的边缘概率密度函数（或边缘密度）， $f_Y (y)$ 也类似。

3.4 条件分布

条件分布试图回答这个问题，当我们知道X必须是某个值x时，Y的概率分布是什么？在离散情况下，给定Y的X的条件概率质量函数较简单：

$p_{Y \mid X} (y \mid x) = \frac{p_{XY}(x, y)}{p_X(x)}$

其中 $p_X(x) \neq 0$ 。

在连续的情况下，情况在技术上更复杂一点，因为连续随机变量X取特定值x的概率等于零。忽略这个技术问题，我们简单通过类比离散情况，来定义给定X = x的Y的条件概率密度：

$f_{Y \mid X}(y \mid x) = \frac{f_{XY} (x, y)}{f_X(x)}$

其中 $f_X(x) \neq 0$ 。

3.5 链式法则

我们之前为事件得出的链式法则可以应用于随机变量，如下所示：

$\begin{aligned} & p_{X_1, \cdots X_n} (x_1, \cdots, x_n) \\ = & p_{X_1} (x_1) p_{X_2 \mid X_1} (x_2 \mid x_1) \cdots p_{X_n \mid X_1, \cdots, X_{n-1}} (x_n \mid x_1, \cdots, x_{n-1}) \end{aligned}$

3.6 贝叶斯法则

贝叶斯法则是一个有用的公式，当试图推导一个变量在另一个变量的条件下的条件概率表达式时经常出现。

在离散随机变量X和Y的情况下，

$P_{Y \mid X}(y \mid x) = \frac{P_{XY}(x, y)}{P_X(x)} = \frac{P_{X \mid Y} (x \mid y) P_Y(y)}{\sum_{y' \in Val(Y)} P_{X \mid Y} (x \mid y') P_Y(y')}$

如果随机变量X和Y是连续的：

$f_{Y \mid X}(y\mid x) = \frac{f_{XY}(x, y)}{f_X(x)} = \frac{f_{X \mid Y} (x \mid y) f_Y(y)}{\int^{\infty}_{- \infty} f_{X\mid Y} (x \mid y') f_Y (y') dy'}$