概率空间
\(\newcommand{\B}{\mathcal{B}}\)有关概率的概念通常是难以直观加以解释的,直观常常会犯错。因此为了看清概率论的全貌,我们首先要了解概率论中的基本概念。下面讨论一般情形下概率空间的定义。
概率空间
概率空间包括三部分:样本空间、事件集和概率测度。
样本空间
样本空间是我们讨论的概率对象的基本组成部分的集合,它是一切的基础,例如在投骰子中样本空间就是集合\(\{1,2,3,4,5,6\}\),我们把样本空间(集合)记为\(\Omega\)。
事件集与\(\sigma\)-algebra
事件集是一系列样本空间的子集构成的集合,例如在投骰子中,“投出偶数”这一事件对应着样本空间的子集\(\{2,4,6\}\)。因此对于有限的样本空间,我们不妨直接把事件集定义为样本空间的幂集\(2^\Omega\)。然而对于无限的甚至不可数的样本空间(比如\(\Omega=\R\)),这样做往往是不方便的。为此我们要发展一个称为\(\sigma\)-algebra的工具来定义事件集。我们定义事件集\(\mathcal{F} \subseteq 2^\Omega\),如果\((\Omega,\mathcal{F})\)满足以下三个条件就称它为一个\(\sigma\)-algebra:①\(\varnothing \in \mathcal{F}\);②\(A \in \mathcal{F} \Rightarrow \Omega\setminus A \in \mathcal{F}\);③至多可数个\(A_1,A_2 \cdots \in \mathcal{F} \Rightarrow \bigcup\limits_{i \geq 1} A_i \in \mathcal{F}\)。这三个条件的直观是:什么都发生是一个事件;一个某事发生是一个事件,某事不发生也是一个事件;可数个事件的并依然是一个事件。
我们将会看到,\(\sigma\)-algebra是概率论中最核心的概念,因此这里我们再深入研究一些它的性质。验证这些性质就是验证定义中的三条性质。根据定义\(\sigma\)-algebra满足对可数并封闭,现在我们验证它对可数交也是封闭的,即\(A_1,A_2 \cdots \in \mathcal{F} \Rightarrow \bigcap\limits_{i \geq 1} A_i \in \mathcal{F}\);其次,如果有一族(不一定可数)\(\sigma\)-algebra\(\{\mathcal{F}_\alpha\}\),那么\(\bigcap\limits_{\alpha}\mathcal{F}_\alpha\)一定也是一个\(\sigma\)-algebra(根据定义验证三条性质即可)。根据这两条性质我们可以定义一个新的概念:对于任意集合\(C\subseteq 2^\Omega\),用\(\sigma(C)\)表示包含\(C\)的最小\(\sigma\)-algebra,称这是由\(C\)生成(generate)的\(\sigma\)-algebra。最小就是指任何其任何真子集的\(\sigma\)-algebra都不能包含\(C\),它其实等价于所有包含\(C\)的\(\sigma\)-algebra的交(我们已经证明了\(\sigma\)-algebra的交依然是\(\sigma\)-algebra)。这样的集合一定是存在的,因为\(2^\Omega\)本身就是一个满足条件的\(\sigma\)-algebra。用\(\sigma\)-algebra来定义事件集其实就是在把一些基本事件生成为一个完整的空间,使得我们能够完整地讨论概率空间上的事件。如果我们的讨论只限于\(C\),那么用\(\sigma(C)\)作为事件集就足够了。
最重要的样本空间是\(\R\),显然我们不能基于每一个实数来讨论概率,因为我们将会看到我们没法给每个实数赋予一个概率密度,那样的话概率的总和会趋向无穷而不是1,换言之我们无法定义一个实数上的“均匀分布”。那么如何定义实数上的事件集呢?我们采用一下定义方式:对于一个区间\(I\),定义Borel Set \(\B(I)\)为\(I\)上所有的开区间生成的\(\sigma\)-algebra。Borel Set有许多等价的生成方式,可以证明所有闭区间、或所有形如\((a,b]\)、或所有形如\((-\infty,x]\)生成的\(\sigma\)-algebra恰好与开区间生成的完全相等。这本质上是由于\(\sigma\)-algebra的生成方式中包含了“补集”和“可数并”这两种操作。在这两种操作下,开区间可以由一列可数的闭区间的并的极限来表示,而开区间也可以由一列可数的开区间的补集的并的极限来得到。换言之在生成\(\sigma\)-algebra的过程中,开区间和闭区间是等价的。其它形式的区间(集合)也是类似的。\(\B(I)\)中的每个元素都是\(I\)中的一段或几段区间,我们认为用这样的事件集来讨论实数上的概率事件就已经足够了。
Borel Set可以推广到多维情况,例如\(\R^2\)上的Borel Set实际上就是所有闭矩形(对应的勒贝格测度仿照一维情形,定义为矩形面积)生成的\(\sigma\)-algebra。
概率测度
最后我们要基于由\(\sigma\)-algebra定义的事件集定义概率测度(Probability Measure)。概率测度\(P\)就是\(\mathcal{F} \to \R\)的映射,它要满足三条公理:①\(\forall A \in \mathcal{F},P(A) \geq 0\);②\(P(\Omega)=1\);③\(A_1,A_2,\cdots\)无交,则\(P(\bigcup\limits_{i} A_i)=\sum\limits_{i} P(A_i)\)。概率测度赋予每个事件集中的事件一个对应的实数,这就是我们平常所说的“某事件发生的概率”。
这样定义的概率测度会满足一些简单的性质:比如,如果\(A \subseteq B\),那么\(P(A) \leq P(B)\)。把它拓展为无穷情形下,如果\(A_1 \subseteq A_2 \subseteq A_3 \cdots\),那么\(P(A_1) \leq P(A_2) \cdots\),最终应当有\(\lim\limits_{n \to \infty}P(A_n)=P(\bigcup\limits_{n \geq 1}A_n)\)(单调有界所以极限存在,Pf:\(P(\bigcup\limits_{n \geq 1}A_n)=P(A_1)+\sum\limits_{n \geq 2}P(A_n \backslash A_{n-1})=P(A_1)+\sum\limits_{n \geq 2}P(A_n)-P(A_{n-1})=\lim\limits_{n \to \infty}P(A_n)\))。
另一些重要的性质包括离散情形的全概率公式,假如\(A_i\)是\(\Omega\)的一个分划,则\(\forall B \in \mathcal{F}\),\(P(B)=\sum\limits_{i}P(B \cap A_i)\);Union Bound,\(P(A\cup B)\le P(A)+P(B)\),推广到可数并\(P(\bigcup\limits_{i\in I}A_i)\le \sum\limits_{i\in I}P(A_i)\);概率意义下的容斥原理\(P(\bigcup\limits_{i=1}^n A_i)=\sum\limits_{\varnothing\neq J\subseteq [n]}(-1)^{|J|+1}P(\bigcap\limits_{j\in J}A_j)\)。
我们引入条件概率的定义\(\Pr(A|B)=\dfrac{\Pr(A \cap B)}{\Pr(B)}\)。条件概率满足以下链式法则:\(P(\bigcap\limits_{i\in [n]}A_i)=\prod\limits_{i=1}^n P(A_i|\bigcap\limits_{j=1}^{i-1}A_j)\)。
我们引入独立的概念,定义两个事件是独立的当且仅当\(\Pr(A \cap B)=\Pr(A) \cdot \Pr(B)\)。称一列事件pairwise independent,若\(\forall i,j\in [n](i\neq j),A_i\bot A_j\);称一列事件mutually independent,若\(\forall I\subseteq [n],P(\bigcap\limits_{i\in I}A_i)=\prod\limits_{i\in I}P(A_i)\)。对于一个无穷集,定义它是mutually independent的当且仅当它的任意有限子集都是mutually independent的。
最终,我们称三元组\((\Omega,\mathcal{F},P)\)为一个概率空间。
\(\R\)上的概率空间
在这样的定义下,我们首先可以看到在整个自然数集\(\N\)上uniformly at random(u.a.r)选择一个自然数是不可能的。因为如果可能,那么\(\Omega=\N\),其概率测度需要满足\(P(\Omega)=1=\sum\limits_{i \geq 0}P(i)\),既然\(P(i)\)全部相等,又不可能为0,对其求和必然趋向无穷大,矛盾。因此我们证明了满足条件的概率空间是不存在的。这就是公理化的好处。
我们下面要证明,在\(\R\)上u.a.r.选择一个实数也是不可能的:不妨等价地设\(\Omega=[0,1)\),我们对于任意一个实数\(x\)选出所有与它差值为有理数的数放入同一个集合(等价类),这样\([0,1)\)就被分划为了许多等价类,不同等价类中的任意两个元素间隔都是无理数。现在我们从每个等价类里任意挑选一个元素出来,构成集合\(N\)(这样定义的集合是存在的,依据是“选择公理”)。对于\(r \in \Q \cap [0,1]\),定义\(N_r=\{(x+r) \mod 1 \mid x \in N\}\),它是\(N\)“平移”\(r\)之后的集合。我们发现任意整数\(z\)都存在且只存在于某一个\(N_r\)中,因为首先所有的等价类覆盖住了\([0,1)\),一定存在一个有理数使得\(z\)平移那么多距离就落在了选进\(N\)的那个点上,其次如果\(z\)同时存在于两个\(N_r\)中,这两个\(N_r\)之间就有元素差值为有理数,这意味着\(N\)中存在两个数差值为有理数,这是不可能的。于是\(N_r\)可以被看作\([0,1)\)的分划了。这样就有\(P([0,1))=\sum\limits_{r}P(N_r)\),不同的\(P(N_r)\)间没有理由有所差别,而\(r\)又有无穷多个,我们再次用同样的方法证明了这样的概率空间是不存在的。
正是因为\([0,1]\)上均匀选取一个点这样的概率空间不存在,我们才发展了Borel Set这一工具,把概率空间定义为\(([0,1],B([0,1]),P)\),那么如何选取\(P\)呢?根据直观,概率测度应当满足\(P([a,b])=P((a,b))\)\(=P([a,b))=P((a,b])=b-a\)。我们可以证明(根据测度扩展定理,但证明很复杂,略)这样的测度是存在的,这称为勒贝格测度(Lebesgue Measure)。这样我们就完善地定义了一个样本集为\(\R\)(或等价的,\([0,1]\)区间)的概率空间。