概率论基础（二）随机变量

本部分主要介绍常见的随机变量及其关系。主要内容有：

随机变量的概念
常见离散随机变量
常见连续随机变量
随机变量函数的分布

在上一节从经验直观出发，引入随机事件及其概率的概念之后，为进一步研究随机现象，我们需要引入随机变量的概念。

补充了随机变量函数的分布这一部分内容

什么是随机变量

顾名思义，随机变量就是其值随机会而定的变量，正如随机事件是其发生与否随机会而定的事件。

机会表现在实验结果，一个随机试验有许多可能的结果，出现哪一个要看机会，即有一定的概率。到底是哪一个，要等掷骰子以后才知道。因此，又可以说，随机变量就是实验结果的函数。关键在于实验前后之分：前，我们不能预制其取值，“随机”；试验后，取值就确定了。

随机变量的反面是“确定性变量”，其取值遵循某种严格的规律的变量。

随机事件这个概念实际上是包含在随机变量这个更广的概念之内。也可以说：随机事件是从静态的观点来研究随机现象，而随机变量则是一种动态的观点。一如数学分析中的常量和变量的区分那样，变量概念是高等数学有别于初等数学的基础概念。同样，概率论能从一些孤立事件的概率发展为一个更高的理论体系，基础就是随机变量。

从中可以看到随机变量与随机事件的联系及其意义，以下给出随机变量形式化的定义：

A random variable is a measurable function $X: \Omega\rightarrow E$ from a set of possible outcomes $\Omega$ to a measurable space $E$. The technical axiomatic definition requires $\Omega$ to be a sample space of a probability triple (see the measure-theoretic definition).
The probability that $X$ takes on a value in a measurable set ${\displaystyle S\subseteq E}$ is written as
${\displaystyle \operatorname {P} (X\in S)=\operatorname {P} (\{\omega \in \Omega \mid X(\omega )\in S\})}$,
where ${\displaystyle \operatorname {P} } $ is the _probability measure_on ${\displaystyle (\Omega ,{\mathcal {F}})}$.

从中可以看到随机变量与随机事件的联系及其意义。简言之，随机变量是定义在样本空间上$\Omega$ 样本点的实值函数 $X=X(\omega)$，是随机事件的数量表示。

考虑到随机变量概念的重要性，对其此概念的介绍参见概率论基础：补充（1）概率的公理化定义与随机变量的概念

下面说明一些符号：如定义所示，随机变量其实是一个定义在样本空间的一个函数 $X(\omega)$ ，而我们平时多简记为 $X$，但要注意其取值始终是和一个事件联系起来的；也就是说，从 $\omega$ 这个事件得出随机变量 $X$ 的值。反过来，对于一个随机变量我们也可以定义出一个对应的事件，例如常见 $X\in A$ 或 $\{X\in A\}$ 其实指的是 $\{\omega|X(\omega)\in A\}$；同理， $a<X\le b$ 其实指的是 $\{\omega|a<X(\omega)\le b\}$ 这样一个事件。虽然随机变量是我们之后一直要接触的一个概念，但至少就我来说，常常仅记住了最为简单的符号却忘了其作为一个函数的本质。

另外，既然是函数自然可以进行变换，也就是随机变量的函数 $Y(\omega)=g(X(\omega))$ 也是一个随机变量，只是将每一个样本映射到了不同的测度空间上，例如 $X^2, \sqrt{X}$ 等。

重要的离散分布

下面两节分别介绍了一些常见的离散和连续分布，应该是在课程上较为着重介绍的，在日后的学习过程中用到的也比较多；但由于这里主要是复习性质的笔记，所以仅仅列出了自己认为比较重要的内容，若是初学请参考相关教材。

0-1分布：设随机变量 X 只取 0,1 两值，$P(X = 1) = p$，$P(X = 0) = 1 − p$，则称 X 服从 0-1 分布或 Bernoulli 分布。
二项分布：两个重要条件：1. 各次试验的条件是稳定的（各次试验中的概率不变），2. 各次试验的独立性。
几何分布：可列重复伯努利实验中第一次成功，试验的次数。$P(X = k) = q^{k−1}p, k = 1, 2,...$。几何分布的无记忆性 $P(ξ > m + n | ξ > m) = P(ξ > n)$
负二项(Pascal)分布：命名来由一则是“负指数二项展开式”，二则是由于它与二项分布相比是“反其道而行之”：二项分布是定下总抽样个数ｎ而把废品个数X作为变量；负二项分布是定下废品个数ｒ而把总抽样次数减去ｒ作为变量。
可列重复伯努利实验中第 r 次成功时试验次数，$P(X_r = k) = C_{r−1}^{ k−1}p^{ r−1} q^{ k−r} p = C_{r−1}^{ k−1}p^{r} q^{k−r}$。注意到，几何分布时负二项分布在$r=1$时的特例。
泊松(Poisson)分布：泊松分布多出现在当 X 表示在一定的时间或空间内出现的事件个数（例如单位时间的放射粒子数，一天之内的顾客数量等）。泊松分布可作为二项分布的极限得到。若$X$服从二项分布，$n$ 很大，$p$ 很小，$np$ 不太大时，$X$ 的分布接近参数为 $\lambda=np$ 的泊松分布。其概率分布为 $P(X=k)={\lambda^k\over k!}e^{-\lambda}$
另外，需注意柏松分布的实际含义；其一个重要应用在于对二项分布的近似。
离散的均匀分布：设随机变量 X 取值 $a_1, a_2, …, a_n$ ，且有$P(X = a_k) = {1\over n}, k = 1, …, n$。可以看出, 离散的均匀分布正是古典概型的抽象。
超几何分布：抽取不放回的情况。概率分布为 $P(X=m)={C_M^m C_{N-M}^{n-m}\over C_N^n}$，可想成从 N 个样品中抽 M 个，记其废品数。命名是因其形式与“超几何函数”的级数展开式的系数有关。这个分布在涉及抽样的问题中常用（无放回）。$X$ 服从超几何分布，当ｎ固定；$M/N＝ｐ$固定；Ｎ趋向无穷时，$X$ 近似服从二项分布。
其数学形式比较复杂，虽然在现实中很多都是超几何分布，但当样本量很大的时候，可将其近似为放回情况，即近似为二项分布。

重要的连续分布

在古典的「概率」框架下，我们可以很自然得理解上面离散分布的含义；在上面，我们是直接根据某一个「数值」变量作为一个随机变量的，这时这个变量取不同的值，对应着某一个事件；然而，除了离散的变量之外，还可能有连续取值的变量，在这时单个状态就没有合理的「概率」内涵了；所以根据概率的定义导出概率密度函数 pdf

\[P(a<X\le b)=\int_a^b f(x)dx \]

这时 $f(x)$ 就不是表征某个事件概率的绝对大小而仅仅是概率的「集中程度」，或者是「单位长度」下的概率大小，因此其取值可大于 1（一定要用微积分的角度来理解）。对于 pdf，显然有

\[\int_{-\infty}^\infty f(x)dx=1 \]
\[P(X=a)=0 \]
因此有

\[P(a<X\le b)=P(a\le X\le b) \]
对数集 $A$ （严格意义下要求可测性）有

\[P(X\in A)=\int _A f(x)ds \]

均匀分布：$U[a, b]$

其一个案例就是作为示性函数（indicator function）。
指数分布：$f(x) = \lambda e^{−\lambda x} (x > 0)$。可以看出, 参数 λ 愈大, 密度函数下降得愈快。指数分布经常用于作为各种「寿命」的分布的近似。
指数分布的最重要的特点是 「无记忆性」，即若 X 服从指数分布，则对任意的 $s, t > 0$ ，有$P(X > s + t | X > s) = P(X > t)$。可以理解成，当仪器工作了 s 小时后再能继续工作 t 小时的概率等于该仪器刚开始就能工作 t 小时的概率，说明该仪器的使用寿命不随使用时间的增加发生变化，或说仪器是「永葆青春」的。
正态分布：正态分布的密度函数是以 $x = µ$ 为对称轴的对称函数，$µ$ 称为位置参数，密度函数在 x = µ 处达到最大值，在$(−∞, µ)$ 和 $(µ, +∞)$ 内严格单调。$σ$ 的大小决定了密度函数的陡峭程度，通常称 $σ$ 为正态分布的形状参数。
威布尔(Weibull)分布：许多产品（如轴承）的使用寿命服从威布尔分布，注意，m=1时退化为指数分布。
伽马 $\Gamma(\alpha, \beta)$分布：密度函数为 $f(x;\alpha,\lambda)={\lambda^\alpha\over \Gamma(\alpha)} x^{\alpha-1}e^{-\lambda x}, x\ge 0$。

伽马分布与指数分布、正态分布有密切关系。显然 $Γ(1, λ) = E(λ)$。
帕累托(Pareto)分布：家庭年收入
贝塔分布 $B(\alpha,\beta)$ 分布：贝塔分布与二项分布、伽马分布有密切关系。

另外，可以参看以下文章：

二项分布、泊松分布、正态分布的关系
Univariate Distribution Relationships（是时候祭出这张辣眼睛的图了）

懒得打公式了，可以参考这篇总结统计分布总结 #优秀的总结

以下来谈谈自己关于各离散和连续分布的理解。

还是先从经典的 Binomial (0-1) 分布讲起，它给出了单次实验成功的概率分布；若要关心 n 次实验中成功的概率，则变为 Bernoulli 分布，它们之间体现的是一种「一和多」的关系；另外，这是我们从实验成功的角度来看的，或者说，是事件发生的「次数」；
给定试验次数（一定的时间限定），事件发生的次数分布为上述 Binomial 和 Bernoulli；那么，换一个角度，我们感兴趣的是事件的次数，所需要的次数（时间）是多少呢？这就是下面的两个：若只关心首次出现时用了多少次实验（时间），那么就服从 Geometric 分布；这是「一」，而对于「多」次事件发生所需要的试验次数（时间），则服从的是 Negative Binomial 分布；
上面介绍了两组离散的分布；另外注意到我在这里反复使用了时间的概念，正是想要和连续情况下对应起来：在连续情况下，一个事件在一个连续的情况下都有一定的概率发生（这时候自然没有了「实验」的概念），我们的关注点可以放在「时间间隔」上。对于事件首次发生/两次事件之间的间隔（假定独立性，这两者显然是等价的），服从的是 Exponential 分布 ，对应了离散情况下的 Geometric 分布；若考虑的是发生了多次事件所用事件，则服从 Gamma 分布 ，对应离散情况下的 Negative Binomial 分布；
上面是一组对应关系，那么对于 1 中是否也有这样的关系呢？这时候，因为我们关心的变为事件的「次数」了，显然是离散的了，所以没有了直接的对应关系。这里涉及到了另一个重要的分布——Poisson 分布。从某种程度上，它通过次数的概念把离散和连续变量结合了起来。一方面，我们可以把它看做是一个计数函数（参考 https://www.zhihu.com/question/34866983 ，泊松过程），描述了在一定的时间间隔下事件发生的次数，从而和 Exponential 分布相联系；另一方面，它的密度公式事实上是 Bernoulli 分布在次数很大，而事件的概率很小的情况下的极限（同时需要两者的乘积满足 $λ=np$ ，n 很大可以看做次数越来越多，间隔越来越小趋向于连续；而在趋向连续时 p 显然趋向于 0）。

随机变量函数的分布

在之前的概率密度函数 pdf/pmf 的基础上，我们可以定义（累积）分布函数 cdf。即 $F(x)=P(X<x)$ 。显然，其有单调不减、右连续等性质。

下面我们要导出随机变量的函数的分布。对于离散情况来说，我们可以直接根据分布列变换得到；所以关键是连续变量（当然可以推广得到统一的形式？）。我们有定理：

定理：设随机变量 X 取值于 $C\ ⊂ \R,Y = g(X),g(x)$ 是 $C$ 到 $D ⊂ \R$ 的一一变换，$x = h(y) = g^{−1} (y)$ 是 $g(x)$ 的反函数，设 $h(y)$ 有连续的导数。则

\[f_Y (y) = f(h(y))|h ′ (y)|, y ∈ D\tag{4.1} \]

事实上，我们可以利用这个公式证明正态分布的线性变换结果。下面给出一个例子：设 $X ∼ N(0, 1)$，求 $Y = X^2$ 的分布。注意到，上面的公式是对于单调函数来说的，而对于非单调的函数有相应的拓展形式，我们仅需要记得简单求和即可。

在此例中，并非一个一一变换，设 $D=(0,\infty)$，并且事件

\[\{Y=y\}=\{X=\sqrt{y}\}+\{X=-\sqrt{y}\}, y\in D \]

这里有分段的两个逆变换 $h_1 (y) =\sqrt y, h_2 (y) = − \sqrt y$ 满足条件，于是

\[f(Y)(y)=f_X(h_1(y))|h_1'(y)|+f_X(h_2(y))|h_2'(y)|\\={1\over \sqrt{2\pi}}\exp(-{1 \over 2}h_1^2(y)){1\over 2\sqrt{y}}+{1\over \sqrt{2\pi}}\exp(-{1 \over 2}h_2^2(y)){1\over 2\sqrt{y}}\\={1\over \sqrt{2\pi y}}e^{-y/2}, y>0 \]

posted @ 2019-12-30 14:16 Easonshi 阅读(1637) 评论(0) 编辑收藏举报

刷新页面返回顶部

Easonshi

a naive idiot

概率论基础（二）随机变量

什么是随机变量

重要的离散分布

重要的连续分布

随机变量函数的分布

公告