数据分析的统计基础2

随机变量

离散型随机变量

离散型随机变量(discrete random variable)是只取有限值或者可列无限值的随机变量,通常用\(X\)表示随机变量,用\(x_i\)表示随机变量可能的取值。

一般地,样本空间上的概率测度决定了\(X\)各种取值的概率;如果随机变量的取值用\(x_1,x_2,...\)表示,那么存在满足\(p(x_i)=P(X=x_i)\)\(\sum \limits_{i}^{}p(x_i)=1\)的函数\(p\),我们称这个函数为随机变量\(X\)的概率质量函数(probability mass function,pmf)或者频率函数(frequency function)。

除了频率函数,有时候利用随机变量的累计分布函数(cumulative distribution function,cdf)比较方便,它定义为:

\[F(x) = P(X \leq x) , x \in (-\infty,+\infty) \]

  • 累计分布函数是非降的,并且满足$$\lim \limits_{x \to -\infty}F(x) = 0$$ 和 \(\lim \limits_{x \to \infty}F(x) = 1\)

伯努利分布(Bernoulli distribution)

背景:一次试验成功与否 参数:\(p\)

伯努利随机变量只有两个取值:0和1,各自的取值概率分别为\(1-p\)\(p\)。因此频率函数为:

\[P(X=x) = p(x) = \left\{\begin{matrix} p, x = 1\\1-p , x = 0 \\ 0,else\end{matrix}\right. \]

另一种有用的表达式:\(p(x) = \left\{ \begin{matrix} p^x(1-p)^{1-x} x=0 或 1\\ 0,else \end{matrix} \right.\)

如果\(A\)是一个事件,那么示性随机变量(indicator random variable)\(I_A\)在A发生时取1,A不发生时取0。

二项分布(Binomial distribution)

背景:\(n\)次独立试验,每次试验“成功”的概率是\(p\),失败的概率是\(1-p\)\(n\)次试验中成功的次数\(X\)是参数\(n\)\(p\)的二项随机变量 参数:\(n\)\(p\)

\(X=k\)的概率p(k)可以通过下面的方式计算:利用乘法原理,任何\(k\)次成功的特定试验序列发生的概率都是\(p^k(1-p)^{n-k}\)。因为\(n\)次试验有\(k\)次成功的排列方式有\(\binom{n}{k}\)种。因此,\(P(X=k)\)是任意特定试验序列的概率乘以这些试验序列的个数:

\[p(k) = \binom{n}{k}p^k(1-p)^{n-k} \]

几何分布(Geometric distribution)和负二项分布(Negative binomial distribution)

背景:几何分布也是由独立的伯努利试验构造而成的,但是由无穷试验序列得到。每次试验成功的概率为\(p\)\(X\)表示直到第一次成功所做的试验次数。参数:\(k\)\(p\)

\(X=k\)时必然有前面的\(k-1\)次试验失败,第\(k\)试验成功。利用试验的独立性,上述事件发生的概率:

\[p(k) = P(X = k) = (1-p)^{k-1}p,k=1,2,3... \]

背景:负二项分布是几何分布的一般化,假设单次试验成功的概率是\(p​\),连续独立地试验直到成功\(r​\)\(X​\)表示试验次数 参数\(n​\)\(r​\)\(p​\)

我们按照如下方式计算\(P(X=k)\):由独立性假设,任意特定试验发生的概率是\(p^r(1-p)^{k-r}\)。最后一次试验结果是成功的,剩余的\(r-1\)次成功出现在剩余的\(k-1\)试验中,因此,

\[P(X=k) = \binom{k-1}{r-1}p^r(1-p)^{k-r} \]

超几何分布(Hypergeometric distribution)

背景:盒中\(n\)个球,其中\(r\)个黑球,\(n-r\)个白球。从盒子中无重复的抽取\(m\)个球,抽到黑球的个数。\(X\)是参数为\(r、n\)\(m\)的超几何随机变量。

\[P(X=k)= \frac{ \binom{r}{k} \binom{n-r}{m-k}}{\binom{n}{m}} \]

泊松分布(Poisson distribution)

参数为\(\lambda(\lambda > 0)\)的泊松频率函数(Poisson frequency function)是

\[P(X=k) = \frac{\lambda^ke^{-\lambda}}{k!},k=0,1,2,... \]

因为\(e^\lambda = \sum \limits_{k=0}^{\infty}(\lambda^k/k!)\),所以频率之和为1。

当试验次数\(n\)趋于\(\infty\),试验成功概率\(p\)趋于\(0\),且满足\(np=\lambda\)时,泊松分布可由二项分布的极限得到。

证明:二项频率函数是:

\[P(X=k)=p(k)=\binom{n}{k}p^k(1-p)^{n-k}=\frac{n!}{(n-k)!k!}p^k(1-p)^{n-k} \]

\(np=\lambda\),上式转换为:

\[\begin{align} p(k)&=\frac{n!}{(n-k)!k!}\left(\frac{\lambda}{n}\right)^k\left(1-\frac{\lambda}{n}\right)^{n-k}\\ &= \frac{\lambda^k}{k!}\frac{n!}{(n-k)!k!}\frac{1}{n^k}\left( 1-\frac{\lambda}{n} \right)^n\left( 1-\frac{\lambda}{n} \right)^{-k}\\ \end{align} \]

\(n \to \infty\)时,

\[\frac{\lambda}{n} \to 0 ,\frac{n!}{(n-k)!n^k} \to 1,\left(1- \frac{\lambda}{n} \right)^n \to e^{-\lambda},\left(1-\frac{\lambda}{n}\right)^{-k} \to 1 \]

因此我们有

\[p(k) \to \frac{\lambda^k e^{-\lambda}}{k!} \]

连续性随机变量

对于连续随机变量,频率函数的角色被密度函数(density function)\(f(x)\)取代,它具有如下性质:\(f(x) \geq 0\)\(f\)分段连续且\(\int_{-\infty}^{\infty}f(x)dx = 1\)。如果\(X\)是具有密度函数\(f\)的随机变量,那么对于任意的\(a<b\)\(X\)落在区间\((a,b)\)上概率是密度函数从\(a\)\(b\)的下方面积:

\[P(a<X<b) = \int_{a}^{b}f(x)dx \]

连续随机变量\(X\)的累积分布函数的定义方式与离散型一样:

\[\begin{align} F(x) &= P(X \leq x) \\ &= \int_{-\infty}^{x}f(u)du \end{align} \]

cdf可以用来估计\(X\)落入一个区间内的概率:

\[P(a \leq X \leq b ) = \int_{a}^{b}f(x)dx = F(b) - F(a) \]

假设\(F\)是连续随机变量的cdf,在某区间\(I\)上是严格增的,因此在\(I\)的左端点处\(F=0\),右端点处\(F = 1\)\(I\)可能是无界的。在这个假设下,逆函数\(F^{-1}\)存在,如果\(y = F(x)\),那么\(x=F^{-1}(y)\)。分布\(F\)的第\(p\)分位数(quantile)定义为满足\(F(x_p) = p\)\(P(X \leq x_p) = p\)\(x_p\)值。特别地,当\(p=\frac{1}{2}\),这相对应于\(F\)的中位数(median),\(p=\frac{1}{4}\)\(p=\frac{3}{4}\)相对应于\(F\)的下、上四分之一分位数。

均匀分布

区间\([0,1]\)上的均匀随机变量(uniform random variable)用来刻画我们所说的在0到1之间随机选择一个数。区间内的任何实数都是一个可能试验结果,概率模型应该满足落入任何长度\(h\)的子区间内的概率是\(h\)。下面的密度函数满足该要求:

\[f(x) =\left\{ \begin{matrix} 1, 0 \leq x \leq 1\\ 0,x < 0 或 x > 1 \end{matrix} \right. \]

这个密度函数称为\([0,1]\)上的均匀密度(uniform density)。一般区间\([a,b]\)上的均匀密度是:

\[f(x) =\left\{ \begin{matrix} \frac{1}{b-a}, a \leq x \leq b\\ 0,x < a 或 x > b \end{matrix} \right. \]

这种定义的一个结果是连续随机变量\(X\)取特定值的概率为\(0\):

\[P(X=c)=\int_{c}^{c}f(x)dx = 0 \]

对于连续随机变量,那么\(P(a<X<b) = P(a \leq X < b) = P(a < X \leq b)\)。注意此事对离散随机变量,上式可能不对。

指数分布

指数密度函数是(\(\lambda\)越大,密度下降地越快)

\[f(x) =\left\{ \begin{matrix} \lambda e^{- \lambda x},x \geq 0 \\ 0,x < 0 \end{matrix} \right. \]

指数分布的累积分布函数为:

\[F(x) = \int_{-\infty}^{x}f(u)du = \left\{ \begin{matrix} 1-e^{-\lambda x} , x \geq 0 \\ 0, x < 0 \end{matrix} \right. \]

指数分布常用来刻画生命周期或者等待时间,这是一般用\(t\)代替\(x\)。假设我们考虑用指数随机变量来刻画电子元件的寿命,且元件已经生存时长\(s\),我们计算它至少能再存活\(t\)个时间单位的概率,也即计算\(P(T > t+s | T > s)\)

\[\begin{align*} P(T>t+s|T>s) &= \frac{P(T>t+s \cap T>s)}{P(T>s)} \\ &= \frac{P(T>t+s)}{P(T>s)} \\ &= \frac{1 - F(t+s)}{1-F(s)} \\ &= \frac{e^{-\lambda(t+s)}}{e^{-\lambda s}} \\ &= e^{-\lambda t} \end{align*} \]

我们看到元件至少能再存活\(t​\)个时间单位的概率不依赖于\(s​\)。因此,指数分布被认为是无记忆性(memoryless)。

伽马分布

伽马密度函数依赖于两个参数----\(\alpha\)\(\lambda\)

\[g(t) =\left\{ \begin{matrix} \frac {\lambda ^ \alpha}{\Gamma(\alpha)} t^{\alpha-1}e^{-\lambda t},t \geq 0 \\ 0, t \leq 0 \end{matrix} \right. \]

因此,密度函数在\(\alpha > 0\)\(\lambda > 0\)上定义完好,全积分等于1。伽马函数\(\Gamma(x)\)定义为:

\[\Gamma(x) = \int_{0}^{\infty}u^{x-1}e^{-u}du,x > 0 \]

注意,如果\(\alpha = 1\),伽马密度等价于指数密度,参数\(\alpha\)称为形状参数(shape parameter),参数称为尺度参数(scale parameter)。变动\(\alpha\)改变密度的形状,而变动\(\lambda\)仅改变测量单位(比方说,从秒到分钟),不影响密度的形状。

正态分布

正态分布在概率论和数理统计中扮演者重要的角色,Carl Friedrich Gauss在测量误差模型时提出这个分布,因此又称为高斯分布(中心极限定理是正态分布广泛使用的理论基础)。粗略来说,中心极限定理是说如果一个随机变量是许多独立随机变量之和,那么它就近似服从正态分布。正态分布的密度函数依赖于两个参数,即\(\mu\)\(\sigma\),其中\(\mu \in (-\infty,\infty)\)\(\sigma > 0\)

\[f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-(x-u)^2/2\sigma ^ 2}, -\infty \leq x \leq \infty \]

参数\(\mu\)\(\sigma\)分别称为正态密度的均值(mean)和标准差(standard deviation),简记为$X \(服从\)N(\mu,\sigma^2)$

由密度函数的形状可以看出密度关于\(\mu\)对称,\(f(\mu-x) = f(\mu + x)\),它有一个最大值,且此处下降的速率依赖于\(\sigma\),正态密度有时称为钟形曲线,\(\mu = 0\)\(\sigma = 1\)的特殊形式称为标准正态密度。它的cdf记为$\Phi \(,密度为\)\phi $

贝塔分布

贝塔密度用来刻画\([0,1]\)区间上的随机变量:

\[f(u) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}u^{a-1}(1-u)^{b-1} ,0 \leq u \leq 1 \]

随机变量的函数

背景:假设随机变量\(X\)有密度函数\(f(x)\),对于某一给定的函数\(g\),我们经常需要计算\(Y=g(X)\)的密度函数。通常,将\(X\)的密度和cdf记为\(f_X\)\(F_X\);\(Y\)的密度和cdf记为\(f_Y\)\(F_Y\)

假设\(X\)~\(N(\mu,\sigma^2)\)\(Y=aX+b\),其中$a > 0 \(。\)Y$的累积分布函数是:

\[F_Y(y) = P(Y \leq y) = P(aX+b \leq y) = P(X \leq \frac{y-b}{a}) = F_X(\frac{y-b}{a}) \]

因此,

\[f_Y(y) = \frac{d}{dy}F_x(\frac{y-b}{a}) = \frac{1}{a}f_X(\frac{y-b}{a}) \]

因为\(f_x\)是参数为\(\mu\)\(\sigma\)的正态密度函数,替代上式后,我们得到:

\[f_Y(y) =\frac{1}{a\sigma\sqrt{2\pi}} exp {\left [ -\frac{1}{2}\left( \frac{y-b-a\mu}{a\sigma}\right) ^ 2\right ]} \]

由此,我们看到\(Y\)服从参数为\(a\mu+b\)\(a\sigma\)的正态分布。

其实,a<0时,上面结论依然成立。

命题:如果\(X\)~\(N(\mu,\sigma^2)\)\(Y=aX+b\),那么\(Y\) ~\(N(a\mu+b,a^2\sigma^2)\)

此结论对于使用正态分布计算概率十分有用。假设\(X\)~\(N(\mu,\sigma^2)\),对某些数值\(x_0\)\(x_1\),我们希望得到\(P(x_0 < X < x_1)\),考虑随机变量:

\[Z = \frac{X - \mu}{\sigma} = \frac{1}{\sigma}X-\frac{\mu}{\sigma} \]

那么\(Z\)~\(N(0,1)\),即\(Z\)服从标准正态分布,因此:

\[F_X(x) = P(X \leq x) = P(\frac{X-\mu}{\sigma} \leq \frac{x-\mu}{\sigma})=P(Z \leq \frac{x-\mu}{\sigma}) = \Phi(\frac{x-\mu}{\sigma}) \]

因此,我们有

\[P(x_0 \leq X \leq x_1) = F_X(x_1)-F_X(x_0)=\Phi(\frac{x_1-\mu}{\sigma})-\Phi(\frac{x_0-\mu}{\sigma}) \]

因此,我们有以下结论:

\(X\)~\(N(\mu,\sigma^2)\),则\(X\)偏离\(\mu\)的值小于\(\sigma 、 2\sigma、3\sigma\)的概率分别为:

  • \(P(-\sigma < X - \mu < \sigma) = P(-1 < \frac{X-\mu}{\sigma} < 1) = P(-1 < Z < 1) = \Phi(1) - \Phi(-1) =0.68\)
  • \(P(-2\sigma < X - \mu < 2\sigma) = P(-2 < \frac{X-\mu}{\sigma} < 2) = P(-2 < Z < 2) = \Phi(2) - \Phi(-2) =0.95\)
  • \(P(-3\sigma < X - \mu < 3\sigma) = P(-3 < \frac{X-\mu}{\sigma} < 3) = P(-3 < Z < 3) = \Phi(3) - \Phi(-3) =0.997\)

计算\(X=Z^2\)的密度,其中\(Z\)~\(N(0,1)\)

\[F_X(x) = P(X \leq x)=P(-\sqrt{x} \leq Z \leq \sqrt{x})=\Phi(\sqrt{x})-\Phi(-\sqrt{x}) \]

我们通过cdf的微分找到\(X\)的密度,因为\(\Phi'(x) = \phi(x)\),利用链式法则求解得到:

\[f_X(x) = \frac{1}{2}x^{-1/2}\phi(\sqrt{x}) + 1/2x^{-1/2}\phi(\sqrt{x})=x^{-1/2}\phi(x) \]

最后一步利用了\(\phi\)的对称性。由最后的表达式我们得到:

\[f_X(x) = \frac{x^{-1/2}}{\sqrt{2\pi}}e^{-x/2},x \geq 0 \]

利用一般通用原则可以识别出这是一个伽马密度。假设两个密度具有形式\(k_1h(x)\)\(k_2h(x)\),由于他们的积分都是\(1\),所以\(k_1=k_2\)。现在,与\(\alpha = \lambda = 1/2\)的伽马密度相比,我们可以得到这里的\(f(x)\)是伽马密度,\(\Gamma(\frac{1}{2})=\sqrt{\pi}\)。这个密度又称为自由度(degree of freedom)为\(1\)卡方密度(chi-square density)

posted @ 2019-08-20 23:55  Evian_Jeff  阅读(494)  评论(0编辑  收藏  举报