数据分析的统计基础2
随机变量
离散型随机变量
离散型随机变量(discrete random variable)是只取有限值或者可列无限值的随机变量,通常用\(X\)表示随机变量,用\(x_i\)表示随机变量可能的取值。
一般地,样本空间上的概率测度决定了\(X\)各种取值的概率;如果随机变量的取值用\(x_1,x_2,...\)表示,那么存在满足\(p(x_i)=P(X=x_i)\)和\(\sum \limits_{i}^{}p(x_i)=1\)的函数\(p\),我们称这个函数为随机变量\(X\)的概率质量函数(probability mass function,pmf)或者频率函数(frequency function)。
除了频率函数,有时候利用随机变量的累计分布函数(cumulative distribution function,cdf)比较方便,它定义为:
- 累计分布函数是非降的,并且满足$$\lim \limits_{x \to -\infty}F(x) = 0$$ 和 \(\lim \limits_{x \to \infty}F(x) = 1\)
伯努利分布(Bernoulli distribution)
背景:一次试验成功与否 参数:\(p\)
伯努利随机变量只有两个取值:0和1,各自的取值概率分别为\(1-p\)和\(p\)。因此频率函数为:
另一种有用的表达式:\(p(x) = \left\{ \begin{matrix} p^x(1-p)^{1-x} x=0 或 1\\ 0,else \end{matrix} \right.\)
如果\(A\)是一个事件,那么示性随机变量(indicator random variable)\(I_A\)在A发生时取1,A不发生时取0。
二项分布(Binomial distribution)
背景:\(n\)次独立试验,每次试验“成功”的概率是\(p\),失败的概率是\(1-p\)。\(n\)次试验中成功的次数\(X\)是参数\(n\)和\(p\)的二项随机变量 参数:\(n\) 和 \(p\)
\(X=k\)的概率p(k)可以通过下面的方式计算:利用乘法原理,任何\(k\)次成功的特定试验序列发生的概率都是\(p^k(1-p)^{n-k}\)。因为\(n\)次试验有\(k\)次成功的排列方式有\(\binom{n}{k}\)种。因此,\(P(X=k)\)是任意特定试验序列的概率乘以这些试验序列的个数:
几何分布(Geometric distribution)和负二项分布(Negative binomial distribution)
背景:几何分布也是由独立的伯努利试验构造而成的,但是由无穷试验序列得到。每次试验成功的概率为\(p\),\(X\)表示直到第一次成功所做的试验次数。参数:\(k\) 和 \(p\)
\(X=k\)时必然有前面的\(k-1\)次试验失败,第\(k\)试验成功。利用试验的独立性,上述事件发生的概率:
背景:负二项分布是几何分布的一般化,假设单次试验成功的概率是\(p\),连续独立地试验直到成功\(r\)次,\(X\)表示试验次数 参数:\(n\) 、\(r\)和\(p\)
我们按照如下方式计算\(P(X=k)\):由独立性假设,任意特定试验发生的概率是\(p^r(1-p)^{k-r}\)。最后一次试验结果是成功的,剩余的\(r-1\)次成功出现在剩余的\(k-1\)试验中,因此,
超几何分布(Hypergeometric distribution)
背景:盒中\(n\)个球,其中\(r\)个黑球,\(n-r\)个白球。从盒子中无重复的抽取\(m\)个球,抽到黑球的个数。\(X\)是参数为\(r、n\)和\(m\)的超几何随机变量。
泊松分布(Poisson distribution)
参数为\(\lambda(\lambda > 0)\)的泊松频率函数(Poisson frequency function)是
因为\(e^\lambda = \sum \limits_{k=0}^{\infty}(\lambda^k/k!)\),所以频率之和为1。
当试验次数\(n\)趋于\(\infty\),试验成功概率\(p\)趋于\(0\),且满足\(np=\lambda\)时,泊松分布可由二项分布的极限得到。
证明:二项频率函数是:
设\(np=\lambda\),上式转换为:
当\(n \to \infty\)时,
因此我们有
连续性随机变量
对于连续随机变量,频率函数的角色被密度函数(density function)\(f(x)\)取代,它具有如下性质:\(f(x) \geq 0\),\(f\)分段连续且\(\int_{-\infty}^{\infty}f(x)dx = 1\)。如果\(X\)是具有密度函数\(f\)的随机变量,那么对于任意的\(a<b\),\(X\)落在区间\((a,b)\)上概率是密度函数从\(a\)到\(b\)的下方面积:
连续随机变量\(X\)的累积分布函数的定义方式与离散型一样:
cdf可以用来估计\(X\)落入一个区间内的概率:
假设\(F\)是连续随机变量的cdf,在某区间\(I\)上是严格增的,因此在\(I\)的左端点处\(F=0\),右端点处\(F = 1\),\(I\)可能是无界的。在这个假设下,逆函数\(F^{-1}\)存在,如果\(y = F(x)\),那么\(x=F^{-1}(y)\)。分布\(F\)的第\(p\)分位数(quantile)定义为满足\(F(x_p) = p\)或\(P(X \leq x_p) = p\)的\(x_p\)值。特别地,当\(p=\frac{1}{2}\),这相对应于\(F\)的中位数(median),\(p=\frac{1}{4}\)和\(p=\frac{3}{4}\)相对应于\(F\)的下、上四分之一分位数。
均匀分布
区间\([0,1]\)上的均匀随机变量(uniform random variable)用来刻画我们所说的在0到1之间随机选择一个数。区间内的任何实数都是一个可能试验结果,概率模型应该满足落入任何长度\(h\)的子区间内的概率是\(h\)。下面的密度函数满足该要求:
这个密度函数称为\([0,1]\)上的均匀密度(uniform density)。一般区间\([a,b]\)上的均匀密度是:
这种定义的一个结果是连续随机变量\(X\)取特定值的概率为\(0\):
对于连续随机变量,那么\(P(a<X<b) = P(a \leq X < b) = P(a < X \leq b)\)。注意此事对离散随机变量,上式可能不对。
指数分布
指数密度函数是(\(\lambda\)越大,密度下降地越快)
指数分布的累积分布函数为:
指数分布常用来刻画生命周期或者等待时间,这是一般用\(t\)代替\(x\)。假设我们考虑用指数随机变量来刻画电子元件的寿命,且元件已经生存时长\(s\),我们计算它至少能再存活\(t\)个时间单位的概率,也即计算\(P(T > t+s | T > s)\):
我们看到元件至少能再存活\(t\)个时间单位的概率不依赖于\(s\)。因此,指数分布被认为是无记忆性(memoryless)。
伽马分布
伽马密度函数依赖于两个参数----\(\alpha\)和\(\lambda\):
因此,密度函数在\(\alpha > 0\),\(\lambda > 0\)上定义完好,全积分等于1。伽马函数\(\Gamma(x)\)定义为:
注意,如果\(\alpha = 1\),伽马密度等价于指数密度,参数\(\alpha\)称为形状参数(shape parameter),参数称为尺度参数(scale parameter)。变动\(\alpha\)改变密度的形状,而变动\(\lambda\)仅改变测量单位(比方说,从秒到分钟),不影响密度的形状。
正态分布
正态分布在概率论和数理统计中扮演者重要的角色,Carl Friedrich Gauss在测量误差模型时提出这个分布,因此又称为高斯分布(中心极限定理是正态分布广泛使用的理论基础)。粗略来说,中心极限定理是说如果一个随机变量是许多独立随机变量之和,那么它就近似服从正态分布。正态分布的密度函数依赖于两个参数,即\(\mu\)和\(\sigma\),其中\(\mu \in (-\infty,\infty)\) ,\(\sigma > 0\)。
参数\(\mu\)和\(\sigma\)分别称为正态密度的均值(mean)和标准差(standard deviation),简记为$X \(服从\)N(\mu,\sigma^2)$
由密度函数的形状可以看出密度关于\(\mu\)对称,\(f(\mu-x) = f(\mu + x)\),它有一个最大值,且此处下降的速率依赖于\(\sigma\),正态密度有时称为钟形曲线,\(\mu = 0\),\(\sigma = 1\)的特殊形式称为标准正态密度。它的cdf记为$\Phi \(,密度为\)\phi $
贝塔分布
贝塔密度用来刻画\([0,1]\)区间上的随机变量:
随机变量的函数
背景:假设随机变量\(X\)有密度函数\(f(x)\),对于某一给定的函数\(g\),我们经常需要计算\(Y=g(X)\)的密度函数。通常,将\(X\)的密度和cdf记为\(f_X\)和\(F_X\);\(Y\)的密度和cdf记为\(f_Y\)和\(F_Y\)。
假设\(X\)~\(N(\mu,\sigma^2)\),\(Y=aX+b\),其中$a > 0 \(。\)Y$的累积分布函数是:
因此,
因为\(f_x\)是参数为\(\mu\)和\(\sigma\)的正态密度函数,替代上式后,我们得到:
由此,我们看到\(Y\)服从参数为\(a\mu+b\)和\(a\sigma\)的正态分布。
其实,a<0时,上面结论依然成立。
命题:如果\(X\)~\(N(\mu,\sigma^2)\),\(Y=aX+b\),那么\(Y\) ~\(N(a\mu+b,a^2\sigma^2)\)
此结论对于使用正态分布计算概率十分有用。假设\(X\)~\(N(\mu,\sigma^2)\),对某些数值\(x_0\)和\(x_1\),我们希望得到\(P(x_0 < X < x_1)\),考虑随机变量:
那么\(Z\)~\(N(0,1)\),即\(Z\)服从标准正态分布,因此:
因此,我们有
因此,我们有以下结论:
若\(X\)~\(N(\mu,\sigma^2)\),则\(X\)偏离\(\mu\)的值小于\(\sigma 、 2\sigma、3\sigma\)的概率分别为:
- \(P(-\sigma < X - \mu < \sigma) = P(-1 < \frac{X-\mu}{\sigma} < 1) = P(-1 < Z < 1) = \Phi(1) - \Phi(-1) =0.68\)
- \(P(-2\sigma < X - \mu < 2\sigma) = P(-2 < \frac{X-\mu}{\sigma} < 2) = P(-2 < Z < 2) = \Phi(2) - \Phi(-2) =0.95\)
- \(P(-3\sigma < X - \mu < 3\sigma) = P(-3 < \frac{X-\mu}{\sigma} < 3) = P(-3 < Z < 3) = \Phi(3) - \Phi(-3) =0.997\)
计算\(X=Z^2\)的密度,其中\(Z\)~\(N(0,1)\)。
我们通过cdf的微分找到\(X\)的密度,因为\(\Phi'(x) = \phi(x)\),利用链式法则求解得到:
最后一步利用了\(\phi\)的对称性。由最后的表达式我们得到:
利用一般通用原则可以识别出这是一个伽马密度。假设两个密度具有形式\(k_1h(x)\)和\(k_2h(x)\),由于他们的积分都是\(1\),所以\(k_1=k_2\)。现在,与\(\alpha = \lambda = 1/2\)的伽马密度相比,我们可以得到这里的\(f(x)\)是伽马密度,\(\Gamma(\frac{1}{2})=\sqrt{\pi}\)。这个密度又称为自由度(degree of freedom)为\(1\)的卡方密度(chi-square density)