概率期望
未完待续。
概率
定义
- 基本事件:实验的可能结果。
- 样本空间:基本事件的集合。
- 事件:不严格地说,是样本空间的一个子集。
- 样本空间 \(S\) 上的概率分布 \(P\):\(S\) 的事件到实数的映射。
公式
- \(P(\varnothing)=0,P(S)=1\)。
- 若事件 \(A_1,A_2,\dots,A_n\) 两两互斥,则 \(P(\bigcup_{i=1}^n A_i)=\sum_{i=1}^n P(A_i)\)。
- \(P(A\cup B)=P(A)+P(B)-P(A\cap B)\le P(A)+P(B)\)。
离散概率分布
如果一个概率分布定义在有限或无限可数的样本空间上,则该概率分布是离散的。什么是无限可数呢?一个集合 \(A\) 是无限可数的,当且仅当它与 \(\N\) 具有相同的基数。
连续均匀概率分布
连续均匀概率分布定义在实数闭区间 \([a,b]\) 上,其中 \(a<b\)。
对于闭区间 \([c,d]\),\(a\le c\le d\le b\),有:
由此可以得出,\(P([x,x])=0,\forall x\in [a,b]\),\(P([c,d])=P([c,c])+P((c,d))+P([d,d])=P((c,d)),\forall a\le c\le d\le b\)。
条件概率
已知事件 \(B\) 发生,事件 \(A\) 的条件概率是:
其中 \(P(B)\neq 0\)。
若 \(P(A\cap B)=P(A)P(B)\),则称事件 \(A,B\) 是独立的。对于独立事件 \(A,B\),有 \(P(A\mid B)=P(A)\)。
贝叶斯定理
因为集合的交具有交换律,即对于两个事件 \(A,B\),有 \(A\cap B=B\cap A\),所以 \(P(A\cap B)=P(B)P(A\mid B)=P(A)P(B\mid A)\)。于是得到:
由于 \(B=(B\cap A)\cup (B\cap \overline{A})\),且 \(B\cap A\) 和 \(B\cap \overline{A}\) 是互斥事件,所以 \(P(B)=P(B\cap A)+P(B\cap \overline{A})=P(A)P(B\mid A)+P(\overline{A})P(B\mid \overline{A})\)。于是得到:
可以拓展到多个 \(A\) 的情况。
练习
1
证明布尔不等式:对于可数事件序列 \(A_1,A_2,\dots\),有 \(P(\bigcup_{i\ge 1} A_i)\le \sum_{i\ge 1} P(A_i)\)。
归纳即可。
2
均匀随机一个 \(1\sim 10\) 的排列 \(\{p_{10}\}\),那么 \(p_1<p_2<p_3\) 的概率?
3
证明:\(P(A\mid B)+P(\overline{A}\mid B)=1\)。
4
证明:对于任意事件集 \(A_1,A_2,\dots,A_n\),\(P(\bigcap_{i=1}^n A_i)=P(A_1)P(A_2\mid A_1)P(A_3\mid A_1\cap A_2)\dots P(A_n\mid A_1\cap A_2\cap\dots\cap A_{n-1})\)。
考虑归纳,当 \(n=1\) 时显然成立。
假设 \(n=k-1\) 时成立,设 \(B=\bigcap_{i=1}^{k-1} A_i\),那么 \(P(B)=P(A_1)P(A_2\mid A_1)\dots P(A_{k-1}\mid A_1\cap A_2\cap\dots\cap A_{k-2})\)。
所以 \(P(B\cap A_k)=P(B)P(A_k\mid B)=\dots\)(懒得再写一遍了),得证。
离散随机变量
离散随机变量 \(X\) 是一个从有限或可数无限的样本空间 \(S\) 到实数的函数。
对于任意实数 \(x\),定义事件 \(X=x\) 为 \(\{s\mid s\in S\land X(s)=x\}\)。
对于随机变量 \(X,Y\),根据条件概率公式,有:
两个随机变量 \(X,Y\) 是独立的,当且仅当对于所有的 \(x,y\),\(X=x\) 和 \(Y=y\) 是独立的。
随机变量的期望
对于随机变量 \(X\),定义其期望值为:
期望的线性性质:若 \(E(X)\) 与 \(E(Y)\) 有定义,则:
当两个随机变量 \(X,Y\) 互相独立时:
当随机变量 \(X\) 的值 \(\in \mathbb{N}\) 时,\(E(X)=\sum_{i=0} i\cdot P(X=i)=\sum_{i=1} P(X\ge i)\)。
Jensen 不等式:假如 \(f\) 为一个下凸函数(即 \(\forall x\in \text{定义域},f''(x)\ge 0\)),那么:
随机变量的方差
对于一个随机变量 \(X\),其方差为 \(D(X)\)(或 \(\mathit{Var}(X)\)),满足:
可以推出:\(D(aX)=a^2D(X)\)。
当 \(X,Y\) 独立时,有 \(D(X+Y)=D(X)+D(Y)\)。
练习
1
掷两个普通的六面体骰子,最大值的期望?
2
均匀随机一个排列 \(\{p_n\}\),最大值的位置的期望?
3
证明:\(X,Y\) 为非负随机变量,\(E(\max(X,Y))\le E(X)+E(Y)\)。
\(E(\max(X,Y))=E(X)+E(Y)-E(\min(X,Y))\le E(X)+E(Y)\)。
4
\(n\) 个随机变量 \(X_{1\dots n}\),每个都在 \([1,m]\cap \mathbb{Z}\) 中均匀随机取值,问 \(E(\max_{1\le i\le n}(X_i))\)。
记 \(S=\max_{1\le i\le n}(X_i)\)。
最后一步需要稍微推一下。更简单的方法是利用 \(\sum_{i=0} i\cdot P(X=i)=\sum_{i=1} P(X\ge i)\)。
5
\(n\) 个球,标号 \(1,2,\dots,n\),从中随机取 \(m(0\le m\le n)\) 次,每次取完不放回,问球的编号总和的期望。
设随机变量
那么答案为
6
\(n\) 个球,标号 \(1,2,\dots,n\),从中随机取 \(m(0\le m\le n)\) 次,每次取完有 \(p_1\) 的概率放回一个,\(p_2\) 的概率放回两个相同的球,保证 \(0\le p_1+p_2\le 1\),问球的编号总和的期望。
米奇妙妙题。
设 \(C_i\) 为 \(i\) 球被取出来的次数。我们知道,每个球被取出的概率是均等的,所以 \(E(C_1)=E(C_2)=\dots=E(C_n)\)。而 \(E(\sum_{i=1}^n C_i)=\sum_{i=1}^n E(C_i)=m\),所以 \(E(C_1)=E(C_2)=\dots=E(C_n)=\frac{m}{n}\)。
于是可以计算答案:
与第 \(5\) 题结果相同,因为球是等价的。这是什么意思呢?
7
在一条 \(n\) 个点的链上随机游走(每次有 \(\frac{1}{2}\) 概率向左走一个单位,\(\frac{1}{2}\) 概率向右走一个单位,若在端点处则只能向左或向右走),问从一端到达另一端的期望步数。
将点标号 \(1,2,\dots,n\),设 \(X_i\) 为 \(i\to n\) 的步数,那么 \(E(X_i)=\frac{1}{2}(E(X_{i-1})+1)+\frac{1}{2}(E(X_{i+1})+1)=\frac{1}{2}(E(X_{i-1})+E(X_{i+1}))+1\)。整理得 \(E(X_{i+1})=2E(X_i)-E(X_{i-1})-2\)。看起来是个二阶线性递推,但可以写成:\(E(X_i)-E(X_{i-1})=E(X_{i+1})-E(X_i)+2\),且 \(E(X_n)=0,E(X_{n-1})=1\)。可以得到 \(E(X_1)=n^2\)。
8
在一个 \(n(n>1)\) 个点的完全图上随机游走,问点 \(1\) 到点 \(n\) 的期望步数。
所有点意义相同。设 \(E\) 为答案,那么有:
解得 \(E=n-1\)。
9
给定一棵以 \(1\) 为根的树 \(\mathcal{T}\),在这棵树上随机游走,问对于所有点 \(i\),\(1\to i\) 所需的步数的期望是多少。
设 \(f_i\) 为 \(i\to \textrm{fa}_i\) 的期望步数。设 \(d_i\) 为 \(i\) 的度数,那么有:
化简得:
设 \(g_i\) 为 \(\textrm{fa}_i\to i\) 的期望步数。设 \(i\) 的父亲为 \(u\),有:
化简得:
算出了 \(f,g\),我们也可以在 \(\mathcal{O}(\log n)\) 时间内求出任意两点间的期望步数。
来源
- 《算法导论》(为什么要用算法导论学概率呢?);
- sshwy 的博客。
- RainAir 的博客。