『数学记录』概率导论学习笔记（二）：随机变量

本文为Dimitri P.Bertsekas与John N. Tsitsiklis所著的《概率导论》的学习笔记。

由于时间紧迫，过于详细的举例说明会导致自己的学习效率较低，于是本文将会比上一篇略去非常多不必要的举例与解释，同时加入很多名词的英文单词，利于以后更好地对外文著作及论文的学习。

Part1 离散随机变量（chapter 2）

本文重点讨论的对象为 随机变量(random variable) ，它对许多概率模型的实验结果数值化起到重要作用。从数学上简要解释的话，就是 随机变量是实验结果的实值函数 。在这一部分，我们所讨论的随机变量是 离散（discrete） 的，即讨论取值有限或可数无限的情况。

1.1 概率质量函数及常见离散随机变量

随机变量给每一个值都分配了一个概率，对于离散随机变量我们将这种对应关系称为 分布列/概率质量函数（probability mass function） 。一个随机变量 \(X\) 的概率质量函数 \(p_X\) 由下面的式子给出：

\[p_X(x) = P(\{X=x\}) \]

其中 \(\{X=x\}\) 表示事件 \(X\) 取值为 \(x\) 。在之后的内容中将会约定俗成地使用 大写字母表示随机变量，小写字母表示实数 。

既然概率质量函数是一个概率律，那么自然它会满足 \(\sum_xp_X(\{X=x\}) = 1\) 。

伯努利随机变量

简单来说， 伯努利（Bernoulli）随机变量 就是“抛硬币出现正面”，只不过正反面朝上的概率不一定相等，而是 \(p\) 和 \(1-p\) 。伯努利随机变量在硬币正面朝上时取值为 \(1\) ，那么它的概率质量函数是这样的：

\[p_X(k) = \left\{\begin{array}{lll} p,\quad&\text{若}k=1\\1-p,\quad&\text{若}k = 0\end{array}\right. \]

显然满足和为 \(1\) 。

二项随机变量

简单来说， 二项（binomial）随机变量 就是“抛 \(n\) 次硬币出现正面次数”。它的概率质量函数是我们之前所讲的二项分布，参数为 \(n\) 和 \(p\) ：

\[p_X(k) = P(\{X=k\}) = \binom{n}{k} p^k(1-p)^{n-k},\quad k=0,1,\cdots,n \]

之前我们已经证明过它满足和为 \(1\) 。它的概率质量函数图像是这样的（ \(n=300, p=0.1\) ）：

它的图像有这样的规律： \(n\) 越大图像将更尖， \(p\) 越大越靠右，反之靠左。注意图像中空白的位置概率质量函数并非为 \(0\) ，而是值太小所以不显示。

几何随机变量

简单来说， 几何（Geometric）随机变量 就是“一直抛硬币直到抛出正面所需次数”。它的概率质量函数也十分地显然：

\[p_X(k) = (1-p)^{k-1}p,\quad k=1,2,\cdots \]

可以证明它的和为 \(1\) ：

\[\sum_{k=1}^{\infty}p_X(k)=\sum_{k=1}^{\infty}(1-p)^{k-1}p = p\sum_{k=0}^{\infty}(1-p)^k = p\frac 1{1-(1-p)}=1 \]

它的概率质量函数图像是这样的（ \(p=0.4\) ）：

结合概率质量函数定义式不难发现 \(p\) 越小其图像将越平缓，否则将会更陡。

泊松随机变量

泊松（Poisson） 可能并不那么的直观，因为它来自于大名鼎鼎的 泊松过程 。它的概率质量函数由下式给出：

\[p_X(k) = e^{-\lambda}\frac{\lambda^k}{k!},\quad k=0,1,\cdots \]

同样可以证明它的和为 \(1\) ：

\[\sum_{k=0}^{\infty}e^{-\lambda}\frac{\lambda^k}{k!} = e^{-\lambda}\left(\sum_{k=0}^{\infty}\frac{\lambda^k}{k!}\right) = e^{-\lambda}e^{\lambda} = 1 \]

下面分别是它的两个概率质量函数图像（ \(\lambda = 0.5\) ）：

( \(\lambda = 3\) ）：

当 \(\lambda \leq 1\) 时，概率质量函数单调递减；当 \(\lambda > 1\) 时，概率质量函数会随 \(k\) 值先递增后递减。

它的一个应用是去估计二项随机变量概率质量函数。在 \(\lambda = np\) 这一合适的值下，泊松随机变量概率质量函数是二项随机变量概率质量函数一个非常好的逼近。其原因也不难理解，因为当 \(n\rightarrow\infty\) 的二项随机变量概率质量函数其实就是泊松随机变量概率质量函数：

令 \(X\) 为参数为 \(n,p=\frac\lambda n\) 的二项随机变量。当 \(n\rightarrow\infty\) 时首先有

\[\begin{align*} &\frac {\binom{n}{i}}{n^i} = \frac{\frac{n!}{(n-i)!i!}}{n^i}\rightarrow\frac{1}{i!} &(\frac{n!}{(n-i)!}\text{将趋近于}n^i)\\ &\left(1-\frac \lambda{n}\right)^n = \left(1+\frac 1{x}\right)^{-\lambda x} &(将n换元为-\lambda x，此时x\rightarrow-\infty)\\ &\rightarrow e^{-\lambda} &(x\rightarrow-\infty时\left(1+\frac 1{x}\right)^x极限为e) \end{align*} \]

然后

\[\begin{align*} P(X=i)&=\binom{n}{i}\left(\frac\lambda{n}\right)^i\left(1-\frac \lambda{n}\right)^{n-i}\\ &= \frac {\binom{n}{i}\lambda^i}{n^i}\left(1-\frac \lambda{n}\right)^{n-i}\\ &\rightarrow e^{-\lambda}\frac{\lambda^i}{i!} \end{align*} \]

由此推导出的就是泊松随机变量的概率质量函数。从推导过程能够得出，当参数 \(n\) 很大， \(p\) 很小，使 \(\lambda = np\) 不过大时，泊松分布就会有很好的逼近。所以当二项式系数处理起来很麻烦时，可以尝试使用泊松随机变量的分布来计算。

1.2 离散随机变量的函数、期望、矩、方差

离散随机变量的函数

设 \(g\) 为任意函数，那么 \(g(X)\) 必然是一个离散随机变量：因为一个函数不可能把随机变量取值集合从可数集变为不可数集，说明 \(g(X)\) 是离散的；并且 \(g(X)\) 仍是样本空间到实数域的映射，说明 \(g(X)\) 仍是随机变量。

在变换的同时，概率质量函数也会同时发生改变。设 \(Y = g(X)\) ，则其概率质量函数可由下式给出：

\[p_Y(y) = \sum_{\{x|g(x)=y\}}p_X(x) \]

下面是随机变量三个非常重要的数。

期望与矩

对于一个随机变量，我们在许多时候需要一个简洁的方式去了解它的取值特点。由此就引出了 期望（也称期望值、均值）（expectation） 这一概念。一个离散随机变量的期望等于其所有取值对于取值概率的加权平均：

\[E[X] = \sum_xp_X(x) \]

而 矩（moment） 这一概念来自于物理，它的定义基于期望。矩一般用 \(\mu\) 表示， \(n\) 阶（n-th）矩的定义如下：

\[\mu_X(n) = E[X^n] \]

方差

对于一个随机变量，只是知道它取值的加权平均远远不够。取值的离散程度也是随机变量一个非常重要的指标。想要表示数据的离散程度，取值与期望的差值是必须的，但为了避免在定义式中出现绝对值，于是使用平方来消去，首先定义了 方差（variance） \({\rm var}(X)\) ：

\[{\rm var}(X) = E[(X-E[X])^2] \]

而更为实用的 标准差（standard deviation） \(\sigma\) 则是由下式定义：

\[\sigma_X = \sqrt{{\rm var}(X)} \]

标准差更实用，是因为方差在实际应用领域中会有量纲不同这一重大缺陷，而标准差的量纲则与随机变量的一致。

计算方差最暴力的方法是先计算出 \((X-E[X])^2\) 的分布列，这是一个关于随机变量 \(X\) 的函数，可以用前面的方法去计算。
但是这样计算实在太麻烦了，这里便引出了随机变量函数期望一个更为简便的公式：

\[E[g(X)] = \sum_xg(x)p_X(x) \]

这个公式也不难证明：

\[\begin{align*} E[g(X)] &= E[Y] \\ &= \sum_yyp_Y(y) \\ &= \sum_yy\sum_{\{x|g(x)=y\}}p_X(x) \\ &= \sum_y\sum_{\{x|g(x)=y\}}yp_X(x) \\ &= \sum_y\sum_{\{x|g(x)=y\}}g(x)p_X(x) \\ &= \sum_xg(x)p_X(x) \\ \end{align*} \]

这个公式一来是可以很方便地计算 \(n\) 阶矩：

\[E[X^n] = \sum_xx^np_X(x) \]

这个公式二来自然也适合方差：

\[{\rm var}(X) = E[(X-E[X])^2] = \sum_x(x-E[X])^2p_X(x) \]

这个公式还可以进一步化简：

\[\begin{align*} {\rm var}(X) &= \sum_x(x-E[X])^2p_X(x) \\ &= \sum_x(x^2-2xE[X]+(E[X])^2)p_X(x) \\ &= \sum_xx^2p_X(x)-2E[X]\sum_xxp_X(x)+(E[X])^2\sum_xp_X(x) \\ &= E[X^2]-2(E[X])^2+(E[X])^2 \\ &= E[X^2]-(E[X])^2 \end{align*} \]

特别地，当 \(g\) 是一次函数时，期望和方差会有特殊的结果。令 \(Y = aX+b\) ，那么它的期望将会是：

\[E[Y] = \sum_x(ax+b)p_X(x) = a\sum_xxp_X(x)+b\sum_xp_X(x) = aE[X]+b \]

它的方差将会是：

\[\begin{align*} {\rm var}(Y) &= \sum_x(ax+b-E[Y])^2p_X(x) \\ &= \sum_x(ax+b-aE[X]-b)^2p_X(x) \\ &= a^2\sum_x(x-E[X])^2p_X(x) \\ &= a^2{\rm var}(X) \end{align*} \]

特别需要注意的是，除了一次函数的情形外一般情况下 \(E[g(X)]\neq g(E[X])\) ， \({\rm var}(Y)\neq a^2{\rm var}(X)\) ，不要想当然地使用。

接下来我们讨论一些常见随机变量的均值和方差。

离散均匀随机变量

这种函数的分布列是这样的：

\[p_X(k)=\left\{\begin{array}{ll}\dfrac 1{b-a+1},&若k=a,a+1,\cdots,b \\ 0,&其他\end{array}\right. \]

它的均值很好计算，显然是 \(E[X] = \dfrac{a+b}{2}\) 。难以计算的是它的方差，更准确的说是 \(E[X^2]\) 。由于函数图像的平移并不会对方差产生影响，因此我们可以将 \(a\) 先钦定为 \(1\) 来简化计算：

\[\begin{align*} E[X^2] &= \sum_{1\leq x\leq b}x^2p_X(x) \\ &= \frac 1b\cdot\frac 16b(b+1)(2b+1) \\ &= \frac 16(2b^2+3b+1) \\ \end{align*} \]

\[\begin{align*} {\rm var}(X) &= E[X^2]-(E[X])^2 \\ &= \frac 16(2b^2+3b+1)-\left(\frac{b+1}2\right)^2 \\ &= \frac{b^2-1}{12} \end{align*} \]

再将 \(b\) 替换回 \(b-a+1\) 即可得到离散均匀变量方差的公式：

\[{\rm var(X)} = \frac{(b-a+1)^2-1}{12} = \frac{(b-a)(b-a+2)}{12} \]

泊松随机变量

泊松随机变量的期望可由下式得到：

\[\begin{align*} E[X] &= \sum_{k=0}^\infty ke^{-\lambda}\frac{\lambda^k}{k!} \\ &= \sum_{k=1}^\infty ke^{-\lambda}\frac{\lambda^k}{k!} \\ &= \lambda\sum_{k=1}^\infty e^{-\lambda}\frac{\lambda^{k-1}}{(k-1)!} \\ &= \lambda\sum_{m=0}^{\infty}e^{-\lambda}\frac{\lambda^m}{m!}\qquad(令m=k-1) \\ &= \lambda\qquad(泊松概率质量函数的归一化性质) \end{align*} \]

想要计算泊松随机变量的方差，一样是要先算出 \(E[X^2]\) 的：

\[\begin{align*} E[X^2] &= \sum_{k=1}^\infty k^2e^{-\lambda}\frac{\lambda^k}{k!} \\ &= \lambda\sum_{k=1}^\infty k\frac{e^{-\lambda}\lambda^{k-1}}{(k-1)!} \\ &= \lambda\sum_{m=0}^\infty (m+1)\frac{e^{-\lambda}\lambda^m}{m!} \\ &= \lambda(E[Y]+1) \\ &= \lambda(\lambda+1) \end{align*} \]

所以泊松随机变量的方差就是：

\[\begin{align*} {\rm var}(X) &= E[X^2]-(E[X])^2 \\ &= \lambda(\lambda+1)-\lambda^2 \\ &= \lambda \end{align*} \]

可以发现一个十分有趣但感觉没什么用的性质，那就是泊松随机变量的期望和方差都是 \(\lambda\) 。