1. 什么是数学期望
举个例子:某城市有10万个家庭,没有孩子的家庭有1000个,有一个孩子的家庭有9万个,有两个孩子的家庭有6000个,有3个孩子的家庭有3000个
(0 * 1000 + 1 * 90000 + 2 * 6000 + 3 * 3000) / 100000 = 1.11
数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和
0 * 0.01 + 1 * 0.9 + 2 * 0.06 + 3 * 0.03 = 1.11
2. 概率密度与累积分布
概率密度一般的写法是:P(X=a) = …,即X等于某个值a的可能性
累积分布一般的写法是:P(X<=a) = …,即X小于等于某个值a的所有可能性累加之和
这二者千万别弄混,否则就会被各种公式绕晕。下图是增量分布的概率密度图(橙色)和累积分布图(蓝色)。
3. 常见的分布
(1) 离散分布:
伯努利分布(零一分布,两点分布),二项分布,几何分布,泊松分布(Poisson分布)
(2) 连续分布:
指数分布,正态分布(高斯分布),均匀分布
(3) 抽样分布:
卡方分布(X2分布),F分布,T分布
(4) 其它分布:
多项分布,Beta分布,Dirichlet分布
4. 伯努利分布
(1) 应用场景
应用于两种实验结果。要么成功,要么失败,一定程度上是二元的性质。比如:一个硬币抛一次人结果。
(2) 描述
进行一次事件试验,该事件发生的概率为p,不发生的概率为1-p,任何一个只有两种结果的随机现象都服从0-1分布。
5. 二项分布
(1) 应用场景
在独立n次实验中成功次数,比如:一个硬币抛n次,k次正面朝上。
(2) 描述
上图是n=100, p=0.5(抛硬100次, 每一枚硬币正面朝上的概率为0.5),图中横轴为正面朝上的次数,纵轴为概率,可以看出正面朝上50次的可能性最大,为0.08左右。
6. 泊松分布
(1) 应用场景
某一区间内发生随机事件次数的概率分布,比如:每小时出生3个婴儿,某网站平均每分钟有2次访问。
(2) 描述
一个离散型随机变量X 满足:
这样看起来就很抽象了,推荐看一看参考中的《如何通俗理解泊松分布》,简单地说一下上述公式怎么用,以出生婴儿为例,λ是每小时出生的婴儿的平均数,k是3个婴儿,P(X=3)是每小时出生3个婴儿的概率。从λ中我们就能看出单位时间和发生事件的大概关系。
上图是λ=2时(平均每小时出生2个婴儿),出生0个的概率为0.14,出生1个的概率为0.27…
7. 几何分布
(1) 应用场景
第一次成功所进行的试验次数,比如:考几次能通过,抛几次硬币能出现正面。
(2) 描述
几何分布由n次伯努利分布构成,随机变量X表示第一次成功所进行试验的次数
从公式中很容易看出,经历了k-1次不中,和一次命中,以抛硬币为例,P(X=3)是抛三次能抛到一次正面向上概率,前两次都是背面朝上,第三次正面朝上。如果单个硬币正面朝上的概率为0.5,那么期望是2次。 与二项分布相比,二项分布是抛n次硬币,有几次正面朝上,几何分布是抛几次出现第一次正布朝上。
上图是p=0.5时的几何分布,横轴是次数,可见抛一次就中的可能性最大为0.5,两次中的可能性为0.25…,次数越多,概率越小,整体平均下来基本是两次左右,因此,期望为2。从期望就可以看出,抛第几次能出正面,主要还是取决于硬币本身正面朝上的概率。
8. 指数分布
(1) 应用场景
两次随机事件发生时间间隔的概率分布,比如:婴儿出生的时间间隔,网站访问的时间间隔。
(2) 描述
指数分布满足以下概率密度函数公式
λ> 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间内发生某事件的次数,还是生小孩为例,公式中的x是生两个孩子的时间间隔。
假设平均每一小时出生两个婴儿,则单位时间1小时出生2个婴儿,λ=2,期望e=0.5(平均间隔0.5小时),如左图所示。
假设平均每两小时出生一个婴儿,则单位时间1小时出生0.5个婴儿,λ=0.5,期望E=2(平均间隔2小时),如右图所示。 λ越大,曲线下降越快,可见,指数分布是几何分布的加强版。
上图中x轴是时间间隔,y轴是概率,不是说概率之和为1吗?为什么间隔为0的概率大于1呢?因为这是连续分布,某一点概率大于1(但它所在区域很窄),也不影响函数线下面积之和为1。
9. 正态分布
(1) 应用场景
连续型数据或者数据离散性小,数据基本符合正态分布特点。比如:群体的身高,智商,考试分数(中间多两边少)。
(2) 描述
若随机变量X服从一个数学期望为μ、方差o^2 为的高斯分布,记为N(μ,o^2)
上图是μ=1, o=2.0的正态分布,简单地说,就是基本都分布在以μ为中心,分散在o范围之内,比如:全班平均分80分,考100的也少,不及格的也少。
10. 抽样分布
(1) 一些概率
i. 抽样
如果整体样本可以一个一个判断叫普查,如果整体样本太多,没法一个一个判断,只能取一部分代表整体,叫抽样。
ii. 统计量
统计量是根据样本数据计算出来的一个量,他是样本的函数,通常我们所关心的样本统计量有品均数、样本标准差等等。
iii. 抽样分布
抽样分布也称统计量分布,以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布。卡方分布,T分布,F分布都是抽样分布。
(2) 卡方分布
设 X1,X2,......Xn相互独立, 都服从标准正态分布N(0,1), 则称随机变量χ2=X12+X22+......+Xn2所服从的分布为自由度为 n 的χ2分布.
(3) T分布
设X1服从标准正态分布N(0,1),X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量t=X1/((X2/n)^(1/2)) 所服从的分布为自由度为n的t分布。
(4) F分布
设X1服从自由度为m的χ2分布,X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量F=(X1/m)/(X2/n)所服从的分布为F分布,其中第一自由度为m,第二自由度为n 。
11. 参考
(1) 几种常见的分布
https://wenku.baidu.com/view/dc16311a777f5acfa1c7aa00b52acfc789eb9f04.html
(2) 如何通俗理解泊松分布
https://blog.csdn.net/ccnt_2012/article/details/81114920