概率空间

\(\newcommand{\B}{\mathcal{B}}\)有关概率的概念通常是难以直观加以解释的，直观常常会犯错。因此为了看清概率论的全貌，我们首先要了解概率论中的基本概念。下面讨论一般情形下概率空间的定义。

概率空间

概率空间包括三部分：样本空间、事件集和概率测度。

样本空间

样本空间是我们讨论的概率对象的基本组成部分的集合，它是一切的基础，例如在投骰子中样本空间就是集合\(\{1,2,3,4,5,6\}\)，我们把样本空间（集合）记为\(\Omega\)。

事件集与\(\sigma\)-algebra

事件集是一系列样本空间的子集构成的集合，例如在投骰子中，“投出偶数”这一事件对应着样本空间的子集\(\{2,4,6\}\)。因此对于有限的样本空间，我们不妨直接把事件集定义为样本空间的幂集\(2^\Omega\)。然而对于无限的甚至不可数的样本空间（比如\(\Omega=\R\)），这样做往往是不方便的。为此我们要发展一个称为\(\sigma\)-algebra的工具来定义事件集。我们定义事件集\(\mathcal{F} \subseteq 2^\Omega\)，如果\((\Omega,\mathcal{F})\)满足以下三个条件就称它为一个\(\sigma\)-algebra：①\(\varnothing \in \mathcal{F}\)；②\(A \in \mathcal{F} \Rightarrow \Omega\setminus A \in \mathcal{F}\)；③至多可数个\(A_1,A_2 \cdots \in \mathcal{F} \Rightarrow \bigcup\limits_{i \geq 1} A_i \in \mathcal{F}\)。这三个条件的直观是：什么都发生是一个事件；一个某事发生是一个事件，某事不发生也是一个事件；可数个事件的并依然是一个事件。

我们将会看到，\(\sigma\)-algebra是概率论中最核心的概念，因此这里我们再深入研究一些它的性质。验证这些性质就是验证定义中的三条性质。根据定义\(\sigma\)-algebra满足对可数并封闭，现在我们验证它对可数交也是封闭的，即\(A_1,A_2 \cdots \in \mathcal{F} \Rightarrow \bigcap\limits_{i \geq 1} A_i \in \mathcal{F}\)；其次，如果有一族（不一定可数）\(\sigma\)-algebra\(\{\mathcal{F}_\alpha\}\)，那么\(\bigcap\limits_{\alpha}\mathcal{F}_\alpha\)一定也是一个\(\sigma\)-algebra（根据定义验证三条性质即可）。根据这两条性质我们可以定义一个新的概念：对于任意集合\(C\subseteq 2^\Omega\)，用\(\sigma(C)\)表示包含\(C\)的最小\(\sigma\)-algebra，称这是由\(C\)生成(generate)的\(\sigma\)-algebra。最小就是指任何其任何真子集的\(\sigma\)-algebra都不能包含\(C\)，它其实等价于所有包含\(C\)的\(\sigma\)-algebra的交（我们已经证明了\(\sigma\)-algebra的交依然是\(\sigma\)-algebra）。这样的集合一定是存在的，因为\(2^\Omega\)本身就是一个满足条件的\(\sigma\)-algebra。用\(\sigma\)-algebra来定义事件集其实就是在把一些基本事件生成为一个完整的空间，使得我们能够完整地讨论概率空间上的事件。如果我们的讨论只限于\(C\)，那么用\(\sigma(C)\)作为事件集就足够了。

最重要的样本空间是\(\R\)，显然我们不能基于每一个实数来讨论概率，因为我们将会看到我们没法给每个实数赋予一个概率密度，那样的话概率的总和会趋向无穷而不是1，换言之我们无法定义一个实数上的“均匀分布”。那么如何定义实数上的事件集呢？我们采用一下定义方式：对于一个区间\(I\)，定义Borel Set \(\B(I)\)为\(I\)上所有的开区间生成的\(\sigma\)-algebra。Borel Set有许多等价的生成方式，可以证明所有闭区间、或所有形如\((a,b]\)、或所有形如\((-\infty,x]\)生成的\(\sigma\)-algebra恰好与开区间生成的完全相等。这本质上是由于\(\sigma\)-algebra的生成方式中包含了“补集”和“可数并”这两种操作。在这两种操作下，开区间可以由一列可数的闭区间的并的极限来表示，而开区间也可以由一列可数的开区间的补集的并的极限来得到。换言之在生成\(\sigma\)-algebra的过程中，开区间和闭区间是等价的。其它形式的区间（集合）也是类似的。\(\B(I)\)中的每个元素都是\(I\)中的一段或几段区间，我们认为用这样的事件集来讨论实数上的概率事件就已经足够了。

Borel Set可以推广到多维情况，例如\(\R^2\)上的Borel Set实际上就是所有闭矩形（对应的勒贝格测度仿照一维情形，定义为矩形面积）生成的\(\sigma\)-algebra。

概率测度

最后我们要基于由\(\sigma\)-algebra定义的事件集定义概率测度(Probability Measure)。概率测度\(P\)就是\(\mathcal{F} \to \R\)的映射，它要满足三条公理：①\(\forall A \in \mathcal{F},P(A) \geq 0\)；②\(P(\Omega)=1\)；③\(A_1,A_2,\cdots\)无交，则\(P(\bigcup\limits_{i} A_i)=\sum\limits_{i} P(A_i)\)。概率测度赋予每个事件集中的事件一个对应的实数，这就是我们平常所说的“某事件发生的概率”。

这样定义的概率测度会满足一些简单的性质：比如，如果\(A \subseteq B\)，那么\(P(A) \leq P(B)\)。把它拓展为无穷情形下，如果\(A_1 \subseteq A_2 \subseteq A_3 \cdots\)，那么\(P(A_1) \leq P(A_2) \cdots\)，最终应当有\(\lim\limits_{n \to \infty}P(A_n)=P(\bigcup\limits_{n \geq 1}A_n)\)（单调有界所以极限存在，Pf：\(P(\bigcup\limits_{n \geq 1}A_n)=P(A_1)+\sum\limits_{n \geq 2}P(A_n \backslash A_{n-1})=P(A_1)+\sum\limits_{n \geq 2}P(A_n)-P(A_{n-1})=\lim\limits_{n \to \infty}P(A_n)\)）。

另一些重要的性质包括离散情形的全概率公式，假如\(A_i\)是\(\Omega\)的一个分划，则\(\forall B \in \mathcal{F}\)，\(P(B)=\sum\limits_{i}P(B \cap A_i)\)；Union Bound，\(P(A\cup B)\le P(A)+P(B)\)，推广到可数并\(P(\bigcup\limits_{i\in I}A_i)\le \sum\limits_{i\in I}P(A_i)\)；概率意义下的容斥原理\(P(\bigcup\limits_{i=1}^n A_i)=\sum\limits_{\varnothing\neq J\subseteq [n]}(-1)^{|J|+1}P(\bigcap\limits_{j\in J}A_j)\)。

我们引入条件概率的定义\(\Pr(A|B)=\dfrac{\Pr(A \cap B)}{\Pr(B)}\)。条件概率满足以下链式法则：\(P(\bigcap\limits_{i\in [n]}A_i)=\prod\limits_{i=1}^n P(A_i|\bigcap\limits_{j=1}^{i-1}A_j)\)。

我们引入独立的概念，定义两个事件是独立的当且仅当\(\Pr(A \cap B)=\Pr(A) \cdot \Pr(B)\)。称一列事件pairwise independent，若\(\forall i,j\in [n](i\neq j),A_i\bot A_j\)；称一列事件mutually independent，若\(\forall I\subseteq [n],P(\bigcap\limits_{i\in I}A_i)=\prod\limits_{i\in I}P(A_i)\)。对于一个无穷集，定义它是mutually independent的当且仅当它的任意有限子集都是mutually independent的。

最终，我们称三元组\((\Omega,\mathcal{F},P)\)为一个概率空间。

\(\R\)上的概率空间

在这样的定义下，我们首先可以看到在整个自然数集\(\N\)上uniformly at random(u.a.r)选择一个自然数是不可能的。因为如果可能，那么\(\Omega=\N\)，其概率测度需要满足\(P(\Omega)=1=\sum\limits_{i \geq 0}P(i)\)，既然\(P(i)\)全部相等，又不可能为0，对其求和必然趋向无穷大，矛盾。因此我们证明了满足条件的概率空间是不存在的。这就是公理化的好处。

我们下面要证明，在\(\R\)上u.a.r.选择一个实数也是不可能的：不妨等价地设\(\Omega=[0,1)\)，我们对于任意一个实数\(x\)选出所有与它差值为有理数的数放入同一个集合（等价类），这样\([0,1)\)就被分划为了许多等价类，不同等价类中的任意两个元素间隔都是无理数。现在我们从每个等价类里任意挑选一个元素出来，构成集合\(N\)（这样定义的集合是存在的，依据是“选择公理”）。对于\(r \in \Q \cap [0,1]\)，定义\(N_r=\{(x+r) \mod 1 \mid x \in N\}\)，它是\(N\)“平移”\(r\)之后的集合。我们发现任意整数\(z\)都存在且只存在于某一个\(N_r\)中，因为首先所有的等价类覆盖住了\([0,1)\)，一定存在一个有理数使得\(z\)平移那么多距离就落在了选进\(N\)的那个点上，其次如果\(z\)同时存在于两个\(N_r\)中，这两个\(N_r\)之间就有元素差值为有理数，这意味着\(N\)中存在两个数差值为有理数，这是不可能的。于是\(N_r\)可以被看作\([0,1)\)的分划了。这样就有\(P([0,1))=\sum\limits_{r}P(N_r)\)，不同的\(P(N_r)\)间没有理由有所差别，而\(r\)又有无穷多个，我们再次用同样的方法证明了这样的概率空间是不存在的。

正是因为\([0,1]\)上均匀选取一个点这样的概率空间不存在，我们才发展了Borel Set这一工具，把概率空间定义为\(([0,1],B([0,1]),P)\)，那么如何选取\(P\)呢？根据直观，概率测度应当满足\(P([a,b])=P((a,b))\)\(=P([a,b))=P((a,b])=b-a\)。我们可以证明（根据测度扩展定理，但证明很复杂，略）这样的测度是存在的，这称为勒贝格测度(Lebesgue Measure)。这样我们就完善地定义了一个样本集为\(\R\)（或等价的，\([0,1]\)区间）的概率空间。

posted @ 2023-09-13 15:22 DennyQi 阅读(187) 评论(0) 编辑收藏举报

刷新页面返回顶部

行而上

To The Things Themselves

概率空间

概率空间

样本空间

事件集与\(\sigma\)-algebra

概率测度

\(\R\)上的概率空间