数据分析的统计基础2

随机变量

离散型随机变量

离散型随机变量(discrete random variable)是只取有限值或者可列无限值的随机变量，通常用$X$表示随机变量，用$x_i$表示随机变量可能的取值。

一般地，样本空间上的概率测度决定了$X$各种取值的概率；如果随机变量的取值用$x_1,x_2,...$表示，那么存在满足$p(x_i)=P(X=x_i)$和$\sum \limits_{i}^{}p(x_i)=1$的函数$p$，我们称这个函数为随机变量$X$的概率质量函数(probability mass function，pmf)或者频率函数(frequency function)。

除了频率函数，有时候利用随机变量的累计分布函数(cumulative distribution function，cdf)比较方便，它定义为：

\[F(x) = P(X \leq x) , x \in (-\infty,+\infty) \]

累计分布函数是非降的，并且满足$$\lim \limits_{x \to -\infty}F(x) = 0$$ 和 $\lim \limits_{x \to \infty}F(x) = 1$

伯努利分布(Bernoulli distribution)

背景：一次试验成功与否参数:$p$

伯努利随机变量只有两个取值：0和1，各自的取值概率分别为$1-p$和$p$。因此频率函数为：

\[P(X=x) = p(x) = \left\{\begin{matrix} p, x = 1\\1-p , x = 0 \\ 0,else\end{matrix}\right. \]

另一种有用的表达式：$p(x) = \left\{ \begin{matrix} p^x(1-p)^{1-x} x=0 或 1\\ 0,else \end{matrix} \right.$

如果$A$是一个事件，那么示性随机变量(indicator random variable)$I_A$在A发生时取1，A不发生时取0。

二项分布(Binomial distribution)

背景:$n$次独立试验，每次试验“成功”的概率是$p$，失败的概率是$1-p$。$n$次试验中成功的次数$X$是参数$n$和$p$的二项随机变量参数：$n$ 和 $p$

$X=k$的概率p(k)可以通过下面的方式计算：利用乘法原理，任何$k$次成功的特定试验序列发生的概率都是$p^k(1-p)^{n-k}$。因为$n$次试验有$k$次成功的排列方式有$\binom{n}{k}$种。因此，$P(X=k)$是任意特定试验序列的概率乘以这些试验序列的个数：

\[p(k) = \binom{n}{k}p^k(1-p)^{n-k} \]

几何分布(Geometric distribution)和负二项分布(Negative binomial distribution)

背景：几何分布也是由独立的伯努利试验构造而成的，但是由无穷试验序列得到。每次试验成功的概率为$p$，$X$表示直到第一次成功所做的试验次数。参数：$k$ 和 $p$

$X=k$时必然有前面的$k-1$次试验失败，第$k$试验成功。利用试验的独立性，上述事件发生的概率：

\[p(k) = P(X = k) = (1-p)^{k-1}p,k=1,2,3... \]

背景：负二项分布是几何分布的一般化，假设单次试验成功的概率是$p$，连续独立地试验直到成功$r$次，$X$表示试验次数参数：$n$ 、$r$和$p$

我们按照如下方式计算$P(X=k)$:由独立性假设，任意特定试验发生的概率是$p^r(1-p)^{k-r}$。最后一次试验结果是成功的，剩余的$r-1$次成功出现在剩余的$k-1$试验中，因此，

\[P(X=k) = \binom{k-1}{r-1}p^r(1-p)^{k-r} \]

超几何分布(Hypergeometric distribution)

背景：盒中$n$个球，其中$r$个黑球，$n-r$个白球。从盒子中无重复的抽取$m$个球，抽到黑球的个数。$X$是参数为$r、n$和$m$的超几何随机变量。

\[P(X=k)= \frac{ \binom{r}{k} \binom{n-r}{m-k}}{\binom{n}{m}} \]

泊松分布(Poisson distribution)

参数为$\lambda(\lambda > 0)$的泊松频率函数(Poisson frequency function)是

\[P(X=k) = \frac{\lambda^ke^{-\lambda}}{k!}，k=0,1,2,... \]

因为$e^\lambda = \sum \limits_{k=0}^{\infty}(\lambda^k/k!)$，所以频率之和为1。

当试验次数$n$趋于$\infty$，试验成功概率$p$趋于$0$，且满足$np=\lambda$时，泊松分布可由二项分布的极限得到。

证明：二项频率函数是：

\[P(X=k)=p(k)=\binom{n}{k}p^k(1-p)^{n-k}=\frac{n!}{(n-k)!k!}p^k(1-p)^{n-k} \]

设$np=\lambda$，上式转换为：

\[\begin{align} p(k)&=\frac{n!}{(n-k)!k!}\left(\frac{\lambda}{n}\right)^k\left(1-\frac{\lambda}{n}\right)^{n-k}\\ &= \frac{\lambda^k}{k!}\frac{n!}{(n-k)!k!}\frac{1}{n^k}\left( 1-\frac{\lambda}{n} \right)^n\left( 1-\frac{\lambda}{n} \right)^{-k}\\ \end{align} \]

当$n \to \infty$时，

\[\frac{\lambda}{n} \to 0 ，\frac{n!}{(n-k)!n^k} \to 1，\left(1- \frac{\lambda}{n} \right)^n \to e^{-\lambda}，\left(1-\frac{\lambda}{n}\right)^{-k} \to 1 \]

因此我们有

\[p(k) \to \frac{\lambda^k e^{-\lambda}}{k!} \]

连续性随机变量

对于连续随机变量，频率函数的角色被密度函数(density function)$f(x)$取代，它具有如下性质：$f(x) \geq 0$，$f$分段连续且$\int_{-\infty}^{\infty}f(x)dx = 1$。如果$X$是具有密度函数$f$的随机变量，那么对于任意的$a<b$，$X$落在区间$(a,b)$上概率是密度函数从$a$到$b$的下方面积：

\[P(a<X<b) = \int_{a}^{b}f(x)dx \]

连续随机变量$X$的累积分布函数的定义方式与离散型一样：

\[\begin{align} F(x) &= P(X \leq x) \\ &= \int_{-\infty}^{x}f(u)du \end{align} \]

cdf可以用来估计$X$落入一个区间内的概率：

\[P(a \leq X \leq b ) = \int_{a}^{b}f(x)dx = F(b) - F(a) \]

假设$F$是连续随机变量的cdf，在某区间$I$上是严格增的，因此在$I$的左端点处$F=0$，右端点处$F = 1$，$I$可能是无界的。在这个假设下，逆函数$F^{-1}$存在，如果$y = F(x)$，那么$x=F^{-1}(y)$。分布$F$的第$p$分位数(quantile)定义为满足$F(x_p) = p$或$P(X \leq x_p) = p$的$x_p$值。特别地，当$p=\frac{1}{2}$，这相对应于$F$的中位数(median)，$p=\frac{1}{4}$和$p=\frac{3}{4}$相对应于$F$的下、上四分之一分位数。

均匀分布

区间$[0,1]$上的均匀随机变量(uniform random variable)用来刻画我们所说的在0到1之间随机选择一个数。区间内的任何实数都是一个可能试验结果，概率模型应该满足落入任何长度$h$的子区间内的概率是$h$。下面的密度函数满足该要求：

\[f(x) =\left\{ \begin{matrix} 1， 0 \leq x \leq 1\\ 0,x < 0 或 x > 1 \end{matrix} \right. \]

这个密度函数称为$[0,1]$上的均匀密度(uniform density)。一般区间$[a,b]$上的均匀密度是：

\[f(x) =\left\{ \begin{matrix} \frac{1}{b-a}， a \leq x \leq b\\ 0,x < a 或 x > b \end{matrix} \right. \]

这种定义的一个结果是连续随机变量$X$取特定值的概率为$0$:

\[P(X=c)=\int_{c}^{c}f(x)dx = 0 \]

对于连续随机变量，那么$P(a<X<b) = P(a \leq X < b) = P(a < X \leq b)$。注意此事对离散随机变量，上式可能不对。

指数分布

指数密度函数是($\lambda$越大,密度下降地越快)

\[f(x) =\left\{ \begin{matrix} \lambda e^{- \lambda x}，x \geq 0 \\ 0,x < 0 \end{matrix} \right. \]

指数分布的累积分布函数为：

\[F(x) = \int_{-\infty}^{x}f(u)du = \left\{ \begin{matrix} 1-e^{-\lambda x} ， x \geq 0 \\ 0, x < 0 \end{matrix} \right. \]

指数分布常用来刻画生命周期或者等待时间，这是一般用$t$代替$x$。假设我们考虑用指数随机变量来刻画电子元件的寿命，且元件已经生存时长$s$，我们计算它至少能再存活$t$个时间单位的概率，也即计算$P(T > t+s | T > s)$：

\[\begin{align*} P(T>t+s|T>s) &= \frac{P(T>t+s \cap T>s)}{P(T>s)} \\ &= \frac{P(T>t+s)}{P(T>s)} \\ &= \frac{1 - F(t+s)}{1-F(s)} \\ &= \frac{e^{-\lambda(t+s)}}{e^{-\lambda s}} \\ &= e^{-\lambda t} \end{align*} \]

我们看到元件至少能再存活$t$个时间单位的概率不依赖于$s$。因此，指数分布被认为是无记忆性(memoryless)。

伽马分布

伽马密度函数依赖于两个参数----$\alpha$和$\lambda$：

\[g(t) =\left\{ \begin{matrix} \frac {\lambda ^ \alpha}{\Gamma(\alpha)} t^{\alpha-1}e^{-\lambda t}，t \geq 0 \\ 0， t \leq 0 \end{matrix} \right. \]

因此，密度函数在$\alpha > 0$，$\lambda > 0$上定义完好，全积分等于1。伽马函数$\Gamma(x)$定义为：

\[\Gamma(x) = \int_{0}^{\infty}u^{x-1}e^{-u}du，x > 0 \]

注意，如果$\alpha = 1$，伽马密度等价于指数密度，参数$\alpha$称为形状参数(shape parameter)，参数称为尺度参数(scale parameter)。变动$\alpha$改变密度的形状，而变动$\lambda$仅改变测量单位(比方说，从秒到分钟)，不影响密度的形状。

正态分布

正态分布在概率论和数理统计中扮演者重要的角色，Carl Friedrich Gauss在测量误差模型时提出这个分布，因此又称为高斯分布(中心极限定理是正态分布广泛使用的理论基础)。粗略来说，中心极限定理是说如果一个随机变量是许多独立随机变量之和，那么它就近似服从正态分布。正态分布的密度函数依赖于两个参数，即$\mu$和$\sigma$，其中$\mu \in (-\infty,\infty)$ ，$\sigma > 0$。

\[f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-(x-u)^2/2\sigma ^ 2}， -\infty \leq x \leq \infty \]

参数$\mu$和$\sigma$分别称为正态密度的均值(mean)和标准差(standard deviation)，简记为$X $服从$N(\mu,\sigma^2)$

由密度函数的形状可以看出密度关于$\mu$对称，$f(\mu-x) = f(\mu + x)$，它有一个最大值，且此处下降的速率依赖于$\sigma$，正态密度有时称为钟形曲线，$\mu = 0$，$\sigma = 1$的特殊形式称为标准正态密度。它的cdf记为$\Phi $，密度为$\phi $

贝塔分布

贝塔密度用来刻画$[0,1]$区间上的随机变量：

\[f(u) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}u^{a-1}(1-u)^{b-1} ，0 \leq u \leq 1 \]

随机变量的函数

背景：假设随机变量$X$有密度函数$f(x)$,对于某一给定的函数$g$，我们经常需要计算$Y=g(X)$的密度函数。通常，将$X$的密度和cdf记为$f_X$和$F_X$;$Y$的密度和cdf记为$f_Y$和$F_Y$。

假设$X$~$N(\mu,\sigma^2)$，$Y=aX+b$，其中$a > 0 $。$Y$的累积分布函数是：

\[F_Y(y) = P(Y \leq y) = P(aX+b \leq y) = P(X \leq \frac{y-b}{a}) = F_X(\frac{y-b}{a}) \]

因此，

\[f_Y(y) = \frac{d}{dy}F_x(\frac{y-b}{a}) = \frac{1}{a}f_X(\frac{y-b}{a}) \]

因为$f_x$是参数为$\mu$和$\sigma$的正态密度函数，替代上式后，我们得到：

\[f_Y(y) =\frac{1}{a\sigma\sqrt{2\pi}} exp {\left [ -\frac{1}{2}\left( \frac{y-b-a\mu}{a\sigma}\right) ^ 2\right ]} \]

由此，我们看到$Y$服从参数为$a\mu+b$和$a\sigma$的正态分布。

其实，a<0时，上面结论依然成立。

命题：如果$X$~$N(\mu,\sigma^2)$，$Y=aX+b$，那么$Y$ ~$N(a\mu+b,a^2\sigma^2)$

此结论对于使用正态分布计算概率十分有用。假设$X$~$N(\mu,\sigma^2)$，对某些数值$x_0$和$x_1$，我们希望得到$P(x_0 < X < x_1)$，考虑随机变量：

\[Z = \frac{X - \mu}{\sigma} = \frac{1}{\sigma}X-\frac{\mu}{\sigma} \]

那么$Z$~$N(0,1)$，即$Z$服从标准正态分布，因此：

\[F_X(x) = P(X \leq x) = P(\frac{X-\mu}{\sigma} \leq \frac{x-\mu}{\sigma})=P(Z \leq \frac{x-\mu}{\sigma}) = \Phi(\frac{x-\mu}{\sigma}) \]

因此，我们有

\[P(x_0 \leq X \leq x_1) = F_X(x_1)-F_X(x_0)=\Phi(\frac{x_1-\mu}{\sigma})-\Phi(\frac{x_0-\mu}{\sigma}) \]

因此，我们有以下结论：

若$X$~$N(\mu,\sigma^2)$，则$X$偏离$\mu$的值小于$\sigma 、 2\sigma、3\sigma$的概率分别为：

$P(-\sigma < X - \mu < \sigma) = P(-1 < \frac{X-\mu}{\sigma} < 1) = P(-1 < Z < 1) = \Phi(1) - \Phi(-1) =0.68$
$P(-2\sigma < X - \mu < 2\sigma) = P(-2 < \frac{X-\mu}{\sigma} < 2) = P(-2 < Z < 2) = \Phi(2) - \Phi(-2) =0.95$
$P(-3\sigma < X - \mu < 3\sigma) = P(-3 < \frac{X-\mu}{\sigma} < 3) = P(-3 < Z < 3) = \Phi(3) - \Phi(-3) =0.997$

计算$X=Z^2$的密度，其中$Z$~$N(0,1)$。

\[F_X(x) = P(X \leq x)=P(-\sqrt{x} \leq Z \leq \sqrt{x})=\Phi(\sqrt{x})-\Phi(-\sqrt{x}) \]

我们通过cdf的微分找到$X$的密度，因为$\Phi'(x) = \phi(x)$，利用链式法则求解得到：

\[f_X(x) = \frac{1}{2}x^{-1/2}\phi(\sqrt{x}) + 1/2x^{-1/2}\phi(\sqrt{x})=x^{-1/2}\phi(x) \]

最后一步利用了$\phi$的对称性。由最后的表达式我们得到：

\[f_X(x) = \frac{x^{-1/2}}{\sqrt{2\pi}}e^{-x/2}，x \geq 0 \]

利用一般通用原则可以识别出这是一个伽马密度。假设两个密度具有形式$k_1h(x)$和$k_2h(x)$，由于他们的积分都是$1$,所以$k_1=k_2$。现在，与$\alpha = \lambda = 1/2$的伽马密度相比，我们可以得到这里的$f(x)$是伽马密度，$\Gamma(\frac{1}{2}）=\sqrt{\pi}$。这个密度又称为自由度(degree of freedom)为$1$的卡方密度(chi-square density)

posted @ 2019-08-20 23:55 Evian_Jeff 阅读(570) 评论(0) 收藏举报

刷新页面返回顶部

Evian_Jeff

The best time to plant a tree is 10 years ago, the second is now