概率论

前置定义

$\Omega$ ：样本空间。

$P$ : 概率函数。

例：投掷骰子，

$\Omega = \{1,2,3,4,5,6\} , P(x) = \frac{1}{6} , \forall x \in \Omega$

显然的，如果一个样本空间是合法的，那么

\[\sum_{x\in \Omega} P(x) = 1 \]

$E$ ：事件。$E \subseteq \Omega $ 表示 $E$ 是样本空间的一个子集。

自然的，定义一个事件的概率为

\[P(E) = \sum_{x\in E} P(x) \]

和事件：记作 $A \cup B$ 或 $A + B$ ，当且仅当事件 $A$ 和事件 $B$ 至少一个发生时，事件 $A\cup B$ 发生。

积事件：记作 $A\cap B$ 或 $AB$ ，当且仅当事件 $A$ 和事件 $B$ 同时发生时，事件 $A\cap B$ 发生。

互斥事件：记作 $A\cap B=\varnothing$，事件 $A$ 和事件 $B$ 的交集为空，即不能同时发生。

对立事件： $A\cup B=S$ 且 $A\cap B=\varnothing$ ，整个样本空间仅有事件 $A$ 和事件 $B$ ，即每次实验必有一个且仅有一个发生

独立事件：如果事件 $A,B$ 满足 $P(B\mid A) = P(B)$，那么就称这两个事件相互独立。

随机变量：在概率空间 $(\Omega,P)$ 下，映射 $X:\Omega \rightarrow \mathbb{R}$ 称作一个随机变量。

更透彻的了解随机变量？this

概率

条件概率

定义：事件 $A$ 在 另外一个事件 $B$ 已经发生的条件下 发生的概率。用符号表示为 $P(A | B)$ , 读作“在 $B$ 的条件下 $A$ 的概率”。

两个事件同时发生的概率为 $P(AB)$ ，那么就有： $P(A|B) = \frac{P(AB)}{P(B)} = \frac{n(AB)}{n(B)}$

感性理解：在 $B$ 的条件下 $A$ 发生的概率，和 $B$ 发生的概率，就是 $AB$ 同时发生的概率。

一个小性质

如果 $B,C$ 为互斥事件，那么有

\[P(B\cup C \mid A) = P(B \mid A) + P(C\mid A) \]

乘法公式

由上面公式推广可以得到 $P(AB) = P(A|B)P(B) = P(B|A)P(A)$

再推广一下：对于任何正整数 $n \ge2$ ，当 $P(A_1A_2\dots A_{n-1}) > 0$ 时，就有：

\[P(A_1A_2\dots A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\dots P(A_n|A_1A_2 \dots A_{n-1}) \]

全概率公式

如果事件组 $A_1,A_2,\dots A_n$ 满足

$A_1,A_2\dots A_n$ 两两互斥且 $P(A_i) > 0$
$A_1 \cup A_2 \cup \dots \cup A_n = \Omega$

则称事件组 $A_1,A_2 \dots A_n$ 是样本空间 $\Omega$ 的一个划分。 $B$ 是其中的任一事件，则有

\[P(B) = \sum_{i=1}^{n} P(A_i) \times P(B|A_i) \]

这就是 全概率公式。

这玩意的意义就是对于直接计算 $P(A)$ 比较困难的情况下，将样本空间分成几部分，由此把 $A$ 再分成几个小事件，通过求小事件的概率，并运用加法原理，求出整个事件的概率。

贝叶斯公式

贝叶斯公式可以由条件概率的公式推过来，即

\[P(A|B) = \frac{P(AB)}{P(B)}=\frac{P(A)P(B|A)}{P(B)} = \frac{P(A)P(B|A)}{P(A)P(B\mid A)+P(\bar{A})P(B\mid \bar{A})} \]

如果再推广一下，类似于全概率公式的：

如果事件组 $A_1,A_2,\dots A_n$ 满足

$A_1,A_2\dots A_n$ 两两互斥且 $P(A_i) > 0$
$A_1 \cup A_2 \cup \dots \cup A_n = \Omega$

对于任意事件 $B\in \Omega$ 满足 $P(B) > 0$ ，则有

\[P(A_i \mid B) = \frac{P(A_i)P(B\mid A_i)}{P(B)}=\frac{P(A_i)P(B\mid A_i)}{\sum_{k=1}^nP(A_k)P(B\mid A_k)} \]

你会发现这不就是把 $P(B)$ 用全概率公式表示了一下么。。确实是这样的。

贝叶斯公式可以看成全概率公式的逆，用于解决由结果推过程的问题。

随机变量及其与事件的联系

随机变量：在概率空间 $(\Omega,P)$ 下，映射 $X:\Omega \rightarrow \mathbb{R}$ 称作一个随机变量。

选修二上的定义：如果随机试验的样本空间为 $\Omega$，而且对于 $\Omega$ 中的每一个样本点，变量 $X$ 都有唯一确定的实数值与之对应，就称 $X$ 为一个随机变量。随机变量所有可能的取值组成的集合，称为这个随机变量的取值范围。

常用 $\{X=k\}$ 表示一个事件，比如掷骰子，随机变量 $X$ 的取值范围就是 $\{1,2,3,4,5,6\}$，那么 $\{X=1\}$ 就表示掷出的骰子的点数为 $1$。

分类

离散型随机变量：如果一个随机变量 $X$，它所有可能的取值，都是可以一一列举出来的，那就把它们叫做离散型随机变量。

连续型随机变量：与离散型随机变量相对应。一般来说，连续型随机变量的取值范围包含一个区间，例如，用 $\eta$ 表示某品牌节能灯的寿命，则 $\eta$ 的取值范围可以认为是 $[0,+\infty)$，这里的 $\eta$ 是一个连续型随机变量。

随机变量之间的关系

一般地，如果 $X$ 是一个随机变量，$a,b$ 都是实数且 $a\not=0$，则

\[Y = aX+b \]

也是一个随机变量。那么 $X=t$ 的充要条件就是 $Y=at+b$，因此

\[P(X=t) = P(Y=at+b) \]

离散型随机变量的分布列

以掷骰子为例，它的分布列如下图：

其实就是把所有取值列上，把该取值的概率列上，这就是离散型随机变量的分布列。

这其中要保证以下几点：

$P_i \ge 0,i=1,2,\dots,n$
$\sum_{i=1}^nP_i = 1$

随机变量的期望

期望用 $E$ 来表示。

\[E(X) = \sum_{i \in \Omega}x_iP_i = \mu \]

$X(\omega)$ 就代表着这个随机变量映射后的数。

注：以下有的地方为了防止变量名重复，有时会省略 $X()$

性质

期望的线性关系：

对于两个随机变量 $X,Y$ ，我们有：

\[E(\alpha X+\beta Y) = \alpha E(X) + \beta E(Y) \]

特别的，当 $\alpha = \beta = 1$ 时，则有

\[E(X+Y) = E(X) + E(Y) \]

证明：

根据定义来就行，设 $i$ 表示抽取一次事件。

\[\begin{aligned} E(A+B) &= \sum_{i\in\Omega}(a_i+b_i)P_i \\ &=\sum_{i\in\Omega}a_iP_i + \sum_{i\in\Omega}b_iP_i \\ &= E(A) + E(B) \end{aligned} \]

可以看出期望的线性关系跟这两个随机变量是否独立无关。

\[E(\sum_{i=1}^nc_iX_i) = \sum_{i=1}^nc_iE(X_i) \]

样本均值的期望

\[E(\bar X) = \frac{1}{n}(\sum_{i=1}^n E(X)) = \frac{1}{n} \cdot n \cdot \mu =\mu \]

比较显然。

期望的乘积

对于两个相互独立的随机变量 $X,Y$ ，则有

\[E(XY) = E(X)E(Y) \]

因为只有独立了 $P(XY) $ 才能 $= P(X)P(Y)$ ，前面的不用是因为前面是求和不是乘积。

两个随机变量 $X,Y$ 满足 $Y = aX+b$，则

\[E(Y) = \sum_{i=1}^ny_iP_i \]

\[=\sum_{i=1}^n(ax_i+b)P_i \]

\[= a\sum_{i=1}^nx_iP_i + b\sum_{i=1}^nP_i \]

\[= aE(x) + b \]

期望的方差

方差用于表示数据的分散程度。定义式：

\[Var(X) = \sigma^2 = \sum_{i=1}^n(x_i-\mu)^2P(x_i) \]

其中 $(x_i-\mu)^2$ 表示 $x_i\rightarrow E(x)$ 的偏移程度。

显然，方差越大，越不稳定；反之，反差越小，越稳定。

当然还有标准差，就是开个根号，作用与方差相同，都是反映稳定程度的。

在高中里好像是用 $D(X)$ 来表示方差，不管了，都一样,为了简便后面就用 $D(x)$ 来表示了。

性质

\[D(bX) = \sum(bX-b\mu)^2P(X) = b^2D(x) \]

我们可以知道， $P(X) = P(bX)$ ，概率是一样的，但是权值会放大 $b$ 倍，最后就是放大 $b^2$ 倍。

\[D(x) =\sum(x-E(x))^2P(x) \]

这就是方差的另一种定义，其实就是把 $\mu$ 换成了 $E(X)$ 而已。

重点

\[D(x) = E(X^2) - E(X)^2 \]

证明：

\[\begin{aligned} D(x) &= E((x-E(x))^2) \\ &= E(X^2 - 2XE(X) + E(X)^2)\\ &= E(X^2) - E(2XE(X)) + E(E(X)^2)\\ &= E(X^2) - \sum 2XE(X)P(X) + \sum E(X)^2P(X) \end{aligned} \]

$E(X)$ 视为常数，提前；又因为 $\sum P(X) = 1$ ，得到下式

\[= E(X^2) - 2E(X)^2 + E(X)^2 = E(X^2) - E(X)^2 \]

如果 $X,Y$ 是独立的随机变量，那么

\[D(X+Y) = D(X) + D(Y) \]

证明：根据性质 $3$ 得：

\[\begin{aligned} D(X+Y) &= E((X+Y)^2) - E(X+Y)^2\\ &=E(X^2+2XY+Y^2) - (E(X)+E(Y))^2\\ &= E(X^2) + E(2XY) + E(Y^2) - E(X)^2 - E(Y)^2 - 2E(XY)\\ &= E(X^2) -E(X)^2 + E(Y^2) - E(Y)^2\\ &=D(X)+D(Y) \end{aligned} \]

此结论也可推广到 $n$ 个独立的随机变量。

样本均值的方差

\[D(\bar X) = D(\frac{X_1+X_2+\dots +X_n}{n}) \]

根据性质 $1$ 和性质 $4$ 得：

\[D(\bar X) = \frac{1}{n^2}(D(X_1)+D(X_2) +\dots + D(X_n)) \]

\[= \frac{1}{n^2} \cdot n \cdot \sigma^2 = \frac{\sigma^2}{n} \]

各种分布

两点分布

随机变量 $X$ 的取值只有两种，$X=\{0,1\}$，这就是两点分布。它的分布列是这样的：

两点分布的数学期望就等于成功概率。

两点分布的方差 $D(X) = p(1-p)$。

伯努利试验：所有可能结果只有 $2$ 种的随机试验，通常称为伯努利试验。可以看成“成功“和”不成功”，并设“成功”的概率为 $p$，一次伯努利实验中”成功“出现的次数为 $X$，则 $X$ 服从参数为 $p$ 的两点分布。因此两点分布也常被称为伯努利分布，两点分布中的 $p$ 也常被称为成功概率。

二项分布

$n$ 次独立重复试验：在相同条件下重复 $n$ 次伯努利试验时，约定这 $n$ 次试验是相互独立的，此时这 $n$ 次伯努利试验也常称为 $n$ 次独立重复试验。

还是以掷骰子为例，一共进行了 $n$ 次，定义 $X=1$ 朝上的次数，那么

\[P(X=k) = C_n^k(\frac{1}{6})^k(\frac{5}{6})^k \]

也很好理解，$X=k$ 就表明有 $k$ 次 $1$ 朝上，但是第几次不知道，所以就有一个 $C_n^k$，$k$ 次 $1$ 朝上的概率就是 $(\frac{1}{6})^k$，那么其他 $n-k$ 次非 $1$ 朝上的概率就是 $(\frac{5}{6})^k$，乘起来就是答案。

这其实就是二项分布，我们把抽到 $1$ 视为成功，没抽到视为失败，这就成了 $n$ 次伯努利试验。

更广泛的，我们可以推广一下 $X$ 的分布列，我们记成功概率为 $p$，失败概率 $q=1-p$，就有

我们发现 $X$ 的分布列中的概率值都是 $(q+p)^n$ 每一项所对应的值，我们称 $X$ 服从参数为 $n,p$ 的二项分布，记作

\[X\sim B(n,p) \]

可以看出，两点分布是二项分布的一种特殊形式。

二项分布的期望和方差分别为

\[E(X) = np \]

\[var(X) = np(1-p) \]

超几何分布

例：有 $13$ 个小球，$4$ 蓝 $9$ 红，随机抽 $5$ 个小球，每次抽 $1$ 个，且放回，问抽到 $3$ 个蓝色球的概率。

这个题很简单，因为它是放回的，也就是说每次试验互相不影响，把抽到蓝的视为成功，红的视为失败，这个题就变成了 $n$ 次伯努利试验，运用二项分布的概率公式计算即可。

我们更改一下题目条件，把且放回变成且不放回，这区别就大了，这样以后这个题就变成了我们要说的超几何分布。

抽完不放回，我们就可以把不放回抽 $5$ 次看作是 $1$ 次抽了 $5$ 个球，那么答案就是

\[P(X=3) = \frac{\text{符合条件的情况}}{\text{总情况}}=\frac{C_4^3C_9^1}{C_{13}^5} \]

于是这就是超几何分布的公式。

推广一下，若有总数为 $N$ 件的甲、乙两类物品，其中甲类有 $M(M<N)$ 件，从所有物品中随机取出 $n(n\leq N)$ 件，则这 $n$ 件中所含甲类物品数 $X$ 是一个离散型随机变量，设 $X$ 下界为 $t$，上界为 $s$，则

\[t = \left\{ \begin{aligned} & 0,\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ n\le N-M \\ & n-(N-M),n>N-M \\ \end{aligned} \right. \]

\[s=\min(n,M) \]

并且

\[P(X =k) = \frac{C_M^kC_{N-M}^{n-k}}{C_N^n},k=t,t+1,\dots,s \]

我们就称 $X$ 服从参数为 $N,n,M$ 的超几何分布，记作

\[X \sim H(N,n,M) \]

正态分布

引入建议看数学必修二。

正态曲线

就是形如这样的一个钟形曲线。并且存在一个函数 $\varphi(x)$，能够近似这个曲线：

\[\varphi(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]

其中，$\mu = E(x)$，即 $X$ 的期望；$\sigma = \sqrt{D(X)}$，即 $X$ 的标准差。

我们能看出它的一些性质：

$(1)$ 正态曲线关于 $x=\mu$ 对称，具有中间高，两边低的特点；

$(2)$ 正态曲线在 $x$ 轴上方，且不与 $x$ 轴相交，并且与 $x$ 轴所围成的图形面积为 $1$；（这一点很关键，因为它说明了这个函数反映的就是 $X$ 在某点处的概率，而概率之和就正好为 $1$）

$(3)$ $\sigma$ 决定正态曲线的”胖瘦”：$\sigma$ 越大，说明标准差越大，数据的集中程度越弱，曲线越”胖“；$\sigma$ 越小，标准差越小，数据的集中程度越强，曲线越“瘦”；

$(4)$ 正态曲线最大值在 $x=\mu$ 处取得，为 $\frac{1}{\sigma\sqrt{2\pi}}$。

正态分布

一般地，如果随机变量 $X$ 落在区间 $[a,b]$ 的概率，总是等于 $\varphi_{\mu,\sigma}(x)$ 对应的正态曲线与 $x$ 轴在区间 $[a,b]$ 内围成的面积，则称 $X$ 服从参数为 $\mu$ 与 $\sigma$ 的正态分布，记作

\[X \sim N(\mu,\sigma^2) \]

此时 $\varphi_{\mu,\sigma}(x)$ 称为 $X$ 的概率密度函数。此时 $\mu$ 是 $X$ 的期望，$\sigma$ 是 $X$ 的标准差，而 $\sigma^2$ 就是 $X$ 的方差。

应用

概率/期望 DP

概率期望用的最多的还是这里。

概率 DP

一般采用正推的形式，即一般是知道了起始态，向终止态枚举。

转移方程是跟概率挂钩的。

期望 DP

一般采用倒推的形式，即一般是知道了终止态，向起始态枚举。

期望 DP 的套路主要分为两类

当转移关系不成环时。这种情况我们可以把问题抽象成一个 DAG 。因为我们已经知道了终点也就是终止态，问题往往就是问起始态的期望。DAG 的反图还是 DAG ，我们利用这个性质建反图跑拓扑排序，即可求出起始态。
当转移关系成环时。这种情况就没有 DAG 那样好的性质了。我们设好状态，表示出状态与状态之间的转移关系，常数项放在右边，其余的放在左边，表示出系数。高斯消元求解即可。

posted @ 2023-05-25 20:19 Bloodstalk 阅读(141) 评论(0) 编辑收藏举报

刷新页面返回顶部

bloodstalk

概率论

前置定义

概率

条件概率

一个小性质

乘法公式

全概率公式

贝叶斯公式

随机变量及其与事件的联系

分类

随机变量之间的关系

离散型随机变量的分布列

随机变量的期望

性质

期望的方差

性质

各种分布

两点分布

二项分布

超几何分布

正态分布

正态曲线

正态分布

应用

概率/期望 DP

概率 DP

期望 DP

公告