随机变量

1. 一维随机变量

通俗的讲，随机变量就是指数轴上的数。

一个事件的结果(样本)可以用文字或者字母来表示，但这样并不直观，也无法计算，所以我们将它们一一映射到数轴上，于是数轴上的数就有了

不同的含义，我们称为随机变量。几个符号解读：

1）$x$ $\in$ 随机变量全体。它代表一般随机变量，表示横轴上的任一个数。

2）$X$ $\in$ 映射后样本空间中的随机变量。它代表样本随机变量，具有一般性，可以表示映射后样本空间中的任一个样本。

3）$\omega$ $\in$ 原来的样本空间 $\Omega$。它代表样本变量，具有一般性，可以表示原来样本空间中的任一个样本。

$$X = f(\omega), \omega \in \Omega$$

4）$x_{i}$、$x_{k}$、$y_{j}$ 等表示具体的确定的一个样本，不具有一般性，是 $X$ 的可能取值，如样本空间可以表示为 $\left \{ x_{1}, x_{2},x_{3},x_{4}\right \}$。

5）$X = x_{1}$、$x_{1} \leq X \leq x_{2}$、$X \leq x$ 等都表示事件。一个样本是一个基本事件，样本的集合称为事件。$X = x_{1}$ 指样本 $x_{1}$ 发生，

这里只有一个样本，所以它是基本事件。$x_{1} \leq X \leq x_{2}$ 指样本落在 $x_{1}$ 和 $x_{2}$ 之间，很明显它是一个样本的集合。

6）如何表示事件发生的概率呢？P{事件} 或者 P(事件)，如 $P(X = x_{1})$、$P\left \{ x_{1} \leq X \leq x_{2} \right \}$、$P\left \{ X \leq x \right \}$。

一般来讲用()来表示基本事件的概率，{}表示集合事件的概率。

1）离散型随机变量：$X$ 的可能取值为有限多个或可数无穷个，$y$ 轴表示某个样本发生的概率，比如

映射后的样本空间里有1、3、7，所以 $X$ 的可能取值为1、3、7，$P\left \{ X = 1 \right \} = 0.2$...这个图称为概率分布，也可以写成数学形式

$$P\left \{ X = x_{k} \right \} = p_{k},k = 1,2,3,...$$

分布函数：考虑事件：样本变量 $X$ 落在区间 $(-\infty,x]$。分布函数便是求这个事件的概率：

$$F(x) = P\left \{ X \leqslant x \right \} = \sum_{x_{k} \leq x}^{}p_{k},k=1,2,3,...$$

用 $x_{k}$ 来遍历满足条件的所有样本，相当于一层 $for$ 循环，对于离散型随机变量，概率求和就是对应的 $y$ 值累加。

概率分布是已知的，是静态的，一般针对不同的概率分布，很难得到一个统一的 $F(x)$ 的表达式，很多时候需要对 $x$ 的范围进行讨论，得到不同区间的表达式。

$F(x)$ 的性质：

a. $0 \leq F(x) \leq 1$

b. $F(+\infty) = 1, F(-\infty) = 0$

2）连续型随机变量：$X$ 的可能取值无法一一列举出来，在某一区间内可取无穷个。离散型随机变量是点概率，那连续型随机变量

能否也采用概率分布的那种形式呢？

比如在某个区间 $[0,1]$ 内取一个点，由于 $X$ 在该区间内的可能取值有无穷个，所以可计算得到该点的概率为 0。这并不合理。

因此，对于连续型随机变量，我们不研究它取某个特定值的概率，而研究样本 $X$ 落在某一区间上的概率，用对应的面积表示概率。

很明显，对一个趋近于某一点的区间内求面积也是趋于 0 的，所以这种形式是合理的。

这个图称为 $X$ 的概率密度(对应离散的概率分布)，这里求概率便不是 $y$ 轴的值了，而是概率密度函数曲线下的面积(如阴影部分面积)。

这里的概率密度就没办法写出它的数学形式了，将它记为 $f(x)$，而不是像离散那样的形式 $P\left \{ X = x \right \}$ 。

分布函数：连续型随机变量分布函数也是求事件：样本变量 $X$ 落在区间 $(-\infty,x]$ 的概率：

$$F(x) = P\left \{ X \leqslant x \right \} = \int_{-\infty}^{x}f(t)dt,-\infty < x < +\infty$$

这里相当于用变量 $t$ 来遍历，所求概率和是概率密度函数和区间围成的面积。

$F(x)$ 的性质：

a. $0 \leq F(x) \leq 1$

b. $F(+\infty) = 1, F(-\infty) = 0$

c. $P\left \{ x_{1} < X \leq x_{2} \right \} = \int_{x_{1}}^{x_{2}}f(t)dt,x_{1} < x_{2}$

2. 二维随机变量

将一维随机变量类比到二维，此时坐标系由平面变成空间。

$(x,y)$ $\in$ 随机变量全体，$(X,Y)$ $\in$ 映射后样本空间中的随机变量(即 $(X,Y)$ 是映射后的样本随机变量，具有一般性)，$\omega$ $\in$ 原来的样本空间 $\Omega$，

$$X = f_{1}(\omega), Y = f_{2}(\omega), \omega \in \Omega$$

从这个式子我们可以看到，两个不同函数 $f_{1}$，$f_{2}$ 是作用于同一个样本 $\omega$。

1）离散型随机变量：$(X,Y)$ 的可能取值为有限多个或可数无穷个，$z$ 轴表示某个样本发生的概率，比如

这个图称为联合概率分布，在空间中是很多离散的点，也可以写成数学形式

$$P\left \{ X = x_{i}, Y = y_{j} \right \} = p_{ij}, i,j=1,2,3...$$

联合分布函数：考虑事件：样本变量 $(X,Y)$ 落在平面 $(-\infty,x] \cap (-\infty,y]$，联合分布函数便是求这个事件的概率：

$$F(x,y) = P\left \{ X \leqslant x,Y \leqslant y \right \} = \sum_{x_{i} \leq x}^{}\sum_{y_{j} \leq y}^{}p_{ij}, i,j=1,2,3,...$$

用 $x_{i}$，$y_{j}$ 来遍历所有满足条件的样本，相当于 2 层 $for$ 循环，对于离散型随机变量，概率和即为 $(X,Y)$ 对应的 $z$ 值求和。

$F(x,y)$ 性质：

a. 对于任意实数 $x_{1}$，$x_{2}$，$y_{2}$，$y_{2}$，($x_{1} \leq x \leq x_{2}$，$y_{1} \leq y \leq y_{2}$)，下述不等式恒成立

$$P\left \{ x_{1} \leq X \leq x_{2}, y_{1} \leq Y \leq y_{2} \right \} = F(x_{1},y_{1}) + F(x_{2},y_{2}) - F(x_{1},y_{2}) -F(x_{2},y_{1})$$

可以发现，一个概率分布对应一个分布函数，如联合概率分布/联合分布函数，下面来介绍另外 2 对。

- 边缘概率分布/边缘分布函数

边缘分布即随机向量中分量各自的概率分布。

$$P\left \{ X = x_{i} \right \} = P\left \{ X = x_{i}, Y < +\infty \right \} = \sum_{j=1}^{+\infty}P\left \{ X = x_{i}, Y = y _{j} \right \}, i=1,2,3...$$

$$P\left \{ Y = y_{j} \right \} = P\left \{ X < +\infty, Y = y_{j} \right \} = \sum_{i=1}^{+\infty}P\left \{ X = x_{i}, Y = y _{j} \right \}, j=1,2,3...$$

边缘分布函数形式如下：

$$F_{X}\left ( x \right ) = F\left ( x, +\infty \right ) = P\left \{ X \leq x, Y < +\infty \right \} = \sum_{x_{i} \leq x}^{}\sum_{j=1}^{+\infty}P\left \{ X = x_{i}, Y = y _{j} \right \}, i=1,2,3...$$

$$F_{Y}\left ( y \right ) = F\left ( +\infty, y \right ) = P\left \{ X < +\infty, Y \leq y \right \} = \sum_{y_{j} \leq y}^{}\sum_{i=1}^{+\infty}P\left \{ X = x_{i}, Y = y _{j} \right \}, j=1,2,3...$$

相当于两层循环，如果求 $X$ 的边缘分布，则内层对 $Y$ 做全范围的遍历。

- 条件概率分布/条件分布函数

考虑在其中一个随机变量取得固定值的条件下，另一随机变量的概率分布，这样得到的 $X$ 或 $Y$ 的概率分布叫做条件概率分布，数学形式如下

$$P\left \{ X = x_{i} | Y = y_{j}\right \} = \frac{P\left \{ X = x_{i},Y = y_{j}\right \}}{P\left \{ Y = y_{j} \right \}}, i = 1,2,3,...$$

$$P\left \{ Y = y_{j} | X = x_{i}\right \} = \frac{P\left \{ X = x_{i},Y = y_{j}\right \}}{P\left \{ X = x_{i} \right \}}, j = 1,2,3,...$$

当随机变量 $Y$ 固定后，就退化为一维的情况，所以条件分布函数求的是另一个随机变量 $X$ 在区间 $(-\infty,x]$ 发生时的概率和，即

$$P\left \{ X \leq x | Y = y_{j}\right \} = \frac{P\left \{ X \leq x,Y = y_{j}\right \}}{P\left \{ Y = y_{j} \right \}} = \sum_{x_{i} \leq x}^{}P\left \{ X = x_{i} | Y = y_{j} \right \}, i = 1,2,3,...$$

$$P\left \{ Y \leq y | X = x_{i}\right \} = \frac{P\left \{ Y \leq y,X = x_{i}\right \}}{P\left \{ X = x_{i} \right \}} = \sum_{y_{j} \leq y}^{}P\left \{ Y = y_{j} | X = x_{i} \right \}, j = 1,2,3,...$$

用 $x_{i}$ 来遍历满足条件的样本 $X$，相当于一层 $for$ 循环。

2）连续型随机变量：$(X,Y)$ 的可能取值无法一一列举出来，在某一区间内可取无穷个。

同理，对于连续型随机变量，我们不研究它取某个特定值的概率，而研究样本 $(X,Y)$ 落在某一平面上的概率，用对应的体积表示概率。

这个图称为 $(X,Y)$ 的联合概率密度(对应离散的联合概率分布)，这里求概率便不是 $z$ 轴的值了，而是概率密度函数曲面下的体积(如黄色部分体积)。

联合概率密度也无法写出数学形式，将它记为 $f(x,y)$，而不是像离散那样的形式 $P\left \{ X = x_{i}, Y = y_{i} \right \}$。

联合分布函数：也是求事件：样本变量 $(X,Y)$ 落在平面 $(-\infty,x] \cap (-\infty,y]$ 的概率(体积)：

$$F(x,y) = P\left \{ X \leqslant x,Y \leqslant y \right \} = \int_{-\infty}^{x}\int_{-\infty}^{y}f(u,v)dudv, -\infty < x,y < +\infty$$

$F(x,y)$ 性质：

a. 对于任意实数 $x_{1}$，$x_{2}$，$y_{2}$，$y_{2}$，($x_{1} \leq x \leq x_{2}$，$y_{1} \leq y \leq y_{2}$)，下述不等式恒成立

$$P\left \{ x_{1} \leq X \leq x_{2}, y_{1} \leq Y \leq y_{2} \right \} = F(x_{1},y_{1}) + F(x_{2},y_{2}) - F(x_{1},y_{2}) -F(x_{2},y_{1})$$

- 边缘概率密度/边缘分布函数

每个变量各自的概率密度函数即为随机变量 $(X,Y)$ 关于 $X$ 或者 $Y$ 各自的概率密度函数，是一元函数。

$$f_{X}(x) = \int_{-\infty}^{+\infty}f(x,y)dy$$

$$f_{Y}(y) = \int_{-\infty}^{+\infty}f(x,y)dx$$

边缘分布函数可以通过对边缘概率密度积分得到：

$$F_{Y}(y) = F(+\infty,y) = \int_{-\infty}^{+\infty}\int_{-\infty}^{y}f(u,v)dudv = \int_{-\infty}^{y}[\int_{-\infty}^{+\infty}f(u,v)du]dv = \int_{-\infty}^{y}f_{Y}(v)dv$$

$$F_{X}(x) = F(x,+\infty) = \int_{-\infty}^{x}\int_{-\infty}^{+\infty}f(u,v)dudv = \int_{-\infty}^{x}[\int_{-\infty}^{+\infty}f(u,v)dv]du = \int_{-\infty}^{x}f_{X}(u)du$$

- 条件概率密度/条件分布函数

对于连续型随机变量，是不讨论点概率的，即$P\left \{ Y = y \right \} = 0$ 或 $P\left \{ X = x \right \} = 0$。以 $Y = y$ 为例，则

$P\left \{ X \leq x | Y = y \right \} = 0$ 是无意义的，这里是利用极限的方法来引入条件分布函数的。

给定任意一个固定的整数 $\varepsilon$，则 $P\left \{ y-\varepsilon < Y \leq y+\varepsilon \right \} > 0$。

$$F_{X|Y}(x|y) = P\left \{ X \leq x | Y = y \right \} = \lim_{\varepsilon \rightarrow 0^{+}}P\left \{ X \leq x | y-\varepsilon < Y \leq y+\varepsilon \right \} = \lim_{\varepsilon \rightarrow 0^{+}}\frac{P\left \{ X \leq x, y-\varepsilon < Y \leq y+\varepsilon \right \}}{P\left \{ y-\varepsilon < Y \leq y+\varepsilon \right \}}$$

根据联合分布函数的性质，继续推导：

$$= \lim_{\varepsilon \rightarrow 0^{+}}\frac{F(x,y+\varepsilon) - F(x,y-\varepsilon)}{F_{Y}(y+\varepsilon)-F_{Y}(y-\varepsilon)} = \lim_{\varepsilon \rightarrow 0^{+}} \frac{\frac{F(x,y+\varepsilon) - F(x,y-\varepsilon)}{2\varepsilon}}{\frac{F_{Y}(y+\varepsilon)-F_{Y}(y-\varepsilon)}{2\varepsilon}}$$

由偏导数和导数的定义知：

$$=\frac{\frac{\partial F(x,y)}{\partial y}}{\frac{dF_{Y}(y)}{dy}} = \frac{\frac{\partial }{\partial y}[\int_{-\infty}^{y}\int_{-\infty}^{x}f(u,v)dudv]}{f_{Y}(y)} = \frac{\int_{-\infty}^{x}f(u,y)du}{f_{Y}(y)} = \int_{-\infty}^{x}\frac{f(u,y)}{f_{Y}(y)}du$$

明显，条件概率密度和条件分布函数都是关于 $x$ 和 $y$ 的二元函数。

对于一切 $f_{Y}(y) > 0$ 的，在给定 $Y = y$ 的条件下，$X$ 的条件概率密度和条件分布函数分别为：

$$f_{X|Y}(x|y) = \frac{f(x,y)}{f_{Y}(y)}, f_{Y}(y) > 0$$

$$F_{X|Y}(x|y) = \int_{-\infty}^{x}f_{X|Y}(u|v)du = \int_{-\infty}^{x}\frac{f(u,y)}{f_{Y}(y)}du$$

对于一切 $f_{X}(x) > 0$ 的，在给定 $X = x$ 的条件下，$Y$ 的条件概率密度和条件分布函数分别为：

$$f_{Y|X}(y|x) = \frac{f(x,y)}{f_{X}(x)}, f_{X}(x) > 0$$

$$F_{Y|X}(y|x) = \int_{-\infty}^{y}f_{Y|X}(v|u)dv = \int_{-\infty}^{y}\frac{f(x,v)}{f_{X}(x)}dv$$

posted @ 2020-07-10 10:33 _yanghh 阅读(2266) 评论(0) 编辑收藏举报

刷新页面返回顶部