概率论
前置定义
\(\Omega\) :样本空间。
\(P\) : 概率函数。
例:投掷骰子,
\(\Omega = \{1,2,3,4,5,6\} , P(x) = \frac{1}{6} , \forall x \in \Omega\)
显然的,如果一个样本空间是合法的,那么
\(E\) :事件。$E \subseteq \Omega $ 表示 \(E\) 是样本空间的一个子集。
自然的,定义一个事件的概率为
和事件: 记作 \(A \cup B\) 或 \(A + B\) ,当且仅当事件 \(A\) 和事件 \(B\) 至少一个发生时,事件 \(A\cup B\) 发生。
积事件: 记作 \(A\cap B\) 或 \(AB\) ,当且仅当事件 \(A\) 和事件 \(B\) 同时发生时,事件 \(A\cap B\) 发生。
互斥事件: 记作 \(A\cap B=\varnothing\),事件 \(A\) 和事件 \(B\) 的交集为空,即不能同时发生。
对立事件: \(A\cup B=S\) 且 \(A\cap B=\varnothing\) ,整个样本空间仅有事件 \(A\) 和事件 \(B\) ,即每次实验必有一个且仅有一个发生
独立事件:如果事件 \(A,B\) 满足 \(P(B\mid A) = P(B)\),那么就称这两个事件相互独立。
随机变量:在概率空间 \((\Omega,P)\) 下,映射 \(X:\Omega \rightarrow \mathbb{R}\) 称作一个随机变量。
更透彻的了解随机变量?this
概率
条件概率
定义:事件 \(A\) 在 另外一个事件 \(B\) 已经发生的条件下 发生的概率。用符号表示为 \(P(A | B)\) , 读作“在 \(B\) 的条件下 \(A\) 的概率”。
两个事件同时发生的概率为 \(P(AB)\) ,那么就有: \(P(A|B) = \frac{P(AB)}{P(B)} = \frac{n(AB)}{n(B)}\)
感性理解:在 \(B\) 的条件下 \(A\) 发生的概率,和 \(B\) 发生的概率,就是 \(AB\) 同时发生的概率。
一个小性质
如果 \(B,C\) 为互斥事件,那么有
乘法公式
由上面公式推广可以得到 \(P(AB) = P(A|B)P(B) = P(B|A)P(A)\)
再推广一下:对于任何正整数 \(n \ge2\) ,当 \(P(A_1A_2\dots A_{n-1}) > 0\) 时,就有:
全概率公式
如果事件组 \(A_1,A_2,\dots A_n\) 满足
-
\(A_1,A_2\dots A_n\) 两两互斥且 \(P(A_i) > 0\)
-
\(A_1 \cup A_2 \cup \dots \cup A_n = \Omega\)
则称事件组 \(A_1,A_2 \dots A_n\) 是样本空间 \(\Omega\) 的一个划分。 \(B\) 是其中的任一事件,则有
这就是 全概率公式。
这玩意的意义就是对于直接计算 \(P(A)\) 比较困难的情况下,将样本空间分成几部分,由此把 \(A\) 再分成几个小事件,通过求小事件的概率,并运用加法原理,求出整个事件的概率。
贝叶斯公式
贝叶斯公式可以由条件概率的公式推过来,即
如果再推广一下,类似于全概率公式的:
如果事件组 \(A_1,A_2,\dots A_n\) 满足
-
\(A_1,A_2\dots A_n\) 两两互斥且 \(P(A_i) > 0\)
-
\(A_1 \cup A_2 \cup \dots \cup A_n = \Omega\)
对于任意事件 \(B\in \Omega\) 满足 \(P(B) > 0\) ,则有
你会发现这不就是把 \(P(B)\) 用全概率公式表示了一下么。。确实是这样的。
贝叶斯公式可以看成全概率公式的逆,用于解决由结果推过程的问题。
随机变量及其与事件的联系
随机变量:在概率空间 \((\Omega,P)\) 下,映射 \(X:\Omega \rightarrow \mathbb{R}\) 称作一个随机变量。
选修二上的定义:如果随机试验的样本空间为 \(\Omega\),而且对于 \(\Omega\) 中的每一个样本点,变量 \(X\) 都有唯一确定的实数值与之对应,就称 \(X\) 为一个随机变量。随机变量所有可能的取值组成的集合,称为这个随机变量的取值范围。
常用 \(\{X=k\}\) 表示一个事件,比如掷骰子,随机变量 \(X\) 的取值范围就是 \(\{1,2,3,4,5,6\}\),那么 \(\{X=1\}\) 就表示掷出的骰子的点数为 \(1\)。
分类
离散型随机变量:如果一个随机变量 \(X\),它所有可能的取值,都是可以一一列举出来的,那就把它们叫做离散型随机变量。
连续型随机变量:与离散型随机变量相对应。一般来说,连续型随机变量的取值范围包含一个区间,例如,用 \(\eta\) 表示某品牌节能灯的寿命,则 \(\eta\) 的取值范围可以认为是 \([0,+\infty)\),这里的 \(\eta\) 是一个连续型随机变量。
随机变量之间的关系
一般地,如果 \(X\) 是一个随机变量,\(a,b\) 都是实数且 \(a\not=0\),则
也是一个随机变量。那么 \(X=t\) 的充要条件就是 \(Y=at+b\),因此
离散型随机变量的分布列
以掷骰子为例,它的分布列如下图:
其实就是把所有取值列上,把该取值的概率列上,这就是离散型随机变量的分布列。
这其中要保证以下几点:
- \(P_i \ge 0,i=1,2,\dots,n\)
- \(\sum_{i=1}^nP_i = 1\)
随机变量的期望
期望用 \(E\) 来表示。
\(X(\omega)\) 就代表着这个随机变量映射后的数。
注:以下有的地方为了防止变量名重复,有时会省略 \(X()\)
性质
- 期望的线性关系:
对于两个随机变量 \(X,Y\) ,我们有:
特别的,当 \(\alpha = \beta = 1\) 时,则有
证明:
根据定义来就行,设 \(i\) 表示抽取一次事件。
可以看出期望的线性关系跟这两个随机变量是否独立无关。
- 样本均值的期望
比较显然。
- 期望的乘积
对于两个相互独立的随机变量 \(X,Y\) ,则有
因为只有独立了 $P(XY) $ 才能 \(= P(X)P(Y)\) ,前面的不用是因为前面是求和不是乘积。
- 两个随机变量 \(X,Y\) 满足 \(Y = aX+b\),则
期望的方差
方差用于表示数据的分散程度。定义式:
其中 \((x_i-\mu)^2\) 表示 \(x_i\rightarrow E(x)\) 的偏移程度。
显然,方差越大,越不稳定;反之,反差越小,越稳定。
当然还有标准差,就是开个根号,作用与方差相同,都是反映稳定程度的。
在高中里好像是用 \(D(X)\) 来表示方差,不管了,都一样,为了简便后面就用 \(D(x)\) 来表示了。
性质
我们可以知道 , \(P(X) = P(bX)\) ,概率是一样的,但是权值会放大 \(b\) 倍,最后就是放大 \(b^2\) 倍。
这就是方差的另一种定义,其实就是把 \(\mu\) 换成了 \(E(X)\) 而已。
重点
证明:
\(E(X)\) 视为常数,提前;又因为 \(\sum P(X) = 1\) ,得到下式
如果 \(X,Y\) 是独立的随机变量,那么
证明:根据性质 \(3\) 得:
此结论也可推广到 \(n\) 个独立的随机变量。
- 样本均值的方差
根据性质 \(1\) 和性质 \(4\) 得:
各种分布
两点分布
随机变量 \(X\) 的取值只有两种,\(X=\{0,1\}\),这就是两点分布。它的分布列是这样的:
两点分布的数学期望就等于成功概率。
两点分布的方差 \(D(X) = p(1-p)\)。
伯努利试验:所有可能结果只有 \(2\) 种的随机试验,通常称为伯努利试验。可以看成“成功“和”不成功”,并设“成功”的概率为 \(p\),一次伯努利实验中”成功“出现的次数为 \(X\),则 \(X\) 服从参数为 \(p\) 的两点分布。因此两点分布也常被称为伯努利分布,两点分布中的 \(p\) 也常被称为成功概率。
二项分布
\(n\) 次独立重复试验:在相同条件下重复 \(n\) 次伯努利试验时,约定这 \(n\) 次试验是相互独立的,此时这 \(n\) 次伯努利试验也常称为 \(n\) 次独立重复试验。
还是以掷骰子为例,一共进行了 \(n\) 次,定义 \(X=1\) 朝上的次数,那么
也很好理解,\(X=k\) 就表明有 \(k\) 次 \(1\) 朝上,但是第几次不知道,所以就有一个 \(C_n^k\),\(k\) 次 \(1\) 朝上的概率就是 \((\frac{1}{6})^k\),那么其他 \(n-k\) 次非 \(1\) 朝上的概率就是 \((\frac{5}{6})^k\),乘起来就是答案。
这其实就是二项分布,我们把抽到 \(1\) 视为成功,没抽到视为失败,这就成了 \(n\) 次伯努利试验。
更广泛的,我们可以推广一下 \(X\) 的分布列,我们记成功概率为 \(p\),失败概率 \(q=1-p\),就有
我们发现 \(X\) 的分布列中的概率值都是 \((q+p)^n\) 每一项所对应的值,我们称 \(X\) 服从参数为 \(n,p\) 的二项分布,记作
可以看出,两点分布是二项分布的一种特殊形式。
二项分布的期望和方差分别为
超几何分布
例:有 \(13\) 个小球,\(4\) 蓝 \(9\) 红,随机抽 \(5\) 个小球,每次抽 \(1\) 个,且放回,问抽到 \(3\) 个蓝色球的概率。
这个题很简单,因为它是放回的,也就是说每次试验互相不影响,把抽到蓝的视为成功,红的视为失败,这个题就变成了 \(n\) 次伯努利试验,运用二项分布的概率公式计算即可。
我们更改一下题目条件,把且放回变成且不放回,这区别就大了,这样以后这个题就变成了我们要说的超几何分布。
抽完不放回,我们就可以把不放回抽 \(5\) 次看作是 \(1\) 次抽了 \(5\) 个球,那么答案就是
于是这就是超几何分布的公式。
推广一下,若有总数为 \(N\) 件的甲、乙两类物品,其中甲类有 \(M(M<N)\) 件,从所有物品中随机取出 \(n(n\leq N)\) 件,则这 \(n\) 件中所含甲类物品数 \(X\) 是一个离散型随机变量,设 \(X\) 下界为 \(t\),上界为 \(s\),则
并且
我们就称 \(X\) 服从参数为 \(N,n,M\) 的超几何分布,记作
正态分布
引入建议看数学必修二。
正态曲线
就是形如这样的一个钟形曲线。并且存在一个函数 \(\varphi(x)\),能够近似这个曲线:
其中,\(\mu = E(x)\),即 \(X\) 的期望;\(\sigma = \sqrt{D(X)}\),即 \(X\) 的标准差。
我们能看出它的一些性质:
\((1)\) 正态曲线关于 \(x=\mu\) 对称,具有中间高,两边低的特点;
\((2)\) 正态曲线在 \(x\) 轴上方,且不与 \(x\) 轴相交,并且与 \(x\) 轴所围成的图形面积为 \(1\);(这一点很关键,因为它说明了这个函数反映的就是 \(X\) 在某点处的概率,而概率之和就正好为 \(1\))
\((3)\) \(\sigma\) 决定正态曲线的”胖瘦”:\(\sigma\) 越大,说明标准差越大,数据的集中程度越弱,曲线越”胖“;\(\sigma\) 越小,标准差越小,数据的集中程度越强,曲线越“瘦”;
\((4)\) 正态曲线最大值在 \(x=\mu\) 处取得,为 \(\frac{1}{\sigma\sqrt{2\pi}}\)。
正态分布
一般地,如果随机变量 \(X\) 落在区间 \([a,b]\) 的概率,总是等于 \(\varphi_{\mu,\sigma}(x)\) 对应的正态曲线与 \(x\) 轴在区间 \([a,b]\) 内围成的面积,则称 \(X\) 服从参数为 \(\mu\) 与 \(\sigma\) 的正态分布,记作
此时 \(\varphi_{\mu,\sigma}(x)\) 称为 \(X\) 的概率密度函数。此时 \(\mu\) 是 \(X\) 的期望,\(\sigma\) 是 \(X\) 的标准差,而 \(\sigma^2\) 就是 \(X\) 的方差。
应用
概率/期望 DP
概率期望用的最多的还是这里。
概率 DP
一般采用正推的形式,即一般是知道了起始态,向终止态枚举。
转移方程是跟概率挂钩的。
期望 DP
一般采用倒推的形式,即一般是知道了终止态,向起始态枚举。
期望 DP 的套路主要分为两类
-
当转移关系不成环时。这种情况我们可以把问题抽象成一个 DAG 。因为我们已经知道了终点也就是终止态,问题往往就是问起始态的期望。DAG 的反图还是 DAG ,我们利用这个性质建反图跑拓扑排序,即可求出起始态。
-
当转移关系成环时。这种情况就没有 DAG 那样好的性质了。我们设好状态,表示出状态与状态之间的转移关系,常数项放在右边,其余的放在左边,表示出系数。高斯消元求解即可。