概率论06 连续分布

　　相对于离散随机变量，连续随机变量可以在一个连续区间内取值。比如一个均匀分布，从0到1的区间内取值。一个区间内包含了无穷多个实数，连续随机变量的取值就有无穷多个可能。

　　为了表示连续随机变量的概率分布，我们可以使用累积分布函数或者密度函数。密度函数是对累积分布函数的微分。连续随机变量在某个区间内的概率可以使用累积分布函数相减获得，即密度函数在相应区间的积分。

　　在随机变量中，我们了解了一种连续分布，即均匀分布(uniform distribution)。这里将罗列一些其他的经典连续分布。

指数分布

　　指数分布(exponential distribution)的密度函数随着取值的变大而指数减小。指数分布的密度函数为:

f (x) = {λ e - λ x 0 i f i f x \geq 0 x < 0

　　累积分布函数为:

我们绘制一个指数分布λ=0.2如下:

　　这样一种分布在生活中很常见。比如，洪水等级的分布就类似于这样一个分布。小等级的洪水常发生，而大洪水发生的概率则很小。再比如，金矿的分布：大部分矿石的含金量少，而少部分矿石的含金量高。这提醒我们，一些特殊的条件导致了指数分布。感兴趣的话可以学习“随机过程”这一数学分支。

　　指数分布是无记忆(memoryless)的。我们以原子衰变为例。任意时刻往后，都需要10年的时间，会有一半的原子衰变。已经发生的衰变对后面原子衰变的概率分布无影响。用数学的语言来说，就是

　　等式的左边是原子存活了s的概率。而等式的右边是某一时刻t之后，原子再存活s时间的概率。可以利用指数分布的累积分布函数，很容易的证明上面的等式。指数分布经常用于模拟人的寿命或者电子产品的寿命，这意味着我们同样假设这些分布是无记忆的。一个人活10年的概率和一个人到50岁后，再活10年的概率相等。这样的假设有可能与现实情况有所出入，需要注意。

正态分布

　　正态分布(normal distribution)是最常用到的概率分布。正态分布又被称为高斯分布(Gauss distribution)，因为高斯在1809年使用该分布来预测星体位置。吐槽一句，第一个提出该分布的并不是数学王子高斯，而是法国人De Moivre。作为统计先驱，这位数学家需要在咖啡馆“坐台”，为赌徒计算概率为生。(看来法国咖啡馆不止有文艺青年，也有技术屌丝啊。)

Abraham De Moivre

Gauss

　　正态分布的发现来自于对误差的估计。早期的物理学家发现，在测量中，测量值的分布很有特点：靠近平均值时，概率大；远离平均值时，概率小。比如我们使用尺子去测量同一个物体的长度，重复许多次。如果没有系统误差，那么测量到的长度值是一个符合正态分布的随机变量。再比如，在电子信号中白噪音，也很有可能符合正态分布。De Moivre最早用离散的二项分布来趋近这一分布，而高斯给出了这一分布的具体数学形式。

　　正态分布自从一出生就带着无比强大的“主角光环”，它的特殊地位在后面文章中的中心极限定理中凸显出来。

　　正态分布的密度函数如下:

　　正态分布有两个参数,μ和σ我们可以将正态分布表示成N（μ,σ），当μ=0，σ=1时，这样的正态分布被称作标准正态分布(standard normal distribution)。

　　我们绘制三个正态分布的密度函数:

可以看到，正态分布关于x=μ对称，密度函数在此处取得最大值，并随着偏离中心而递减。如果以测量长度为例，这说明的读取值靠近μ的可能性较大，而偏离μ的可能性变小。

σ代表了概率分布的离散程度.σ越小，概率越趋近对称中心x=μ。

Gamma分布

Gamma分布在统计推断中具有重要地位。它的密度函数如下:

其中的Gamma函数可以表示为:

注意到，Gamma分布有两个控制参数α和λ。

posted @ 2014-04-01 17:29 蚂蚁拉车阅读(855) 评论(0) 编辑收藏举报

刷新页面返回顶部

狂奔的蜗牛

概率论06 连续分布

指数分布

正态分布

Gamma分布

公告