概率统计基础
1. 概率定义
2. 条件概率
3. 随机变量
4. 离散随机变量的分布
5. 连续随机变量的分布
6. 样本
7. 统计量
8. 抽样分布
9. 大数定律
10. 中心极限定理
11. 参数估计
1.概率定义
使用一个数值来度量随机现象中某一结果出现可能性的大小,这个数值就被称为概率(Probability)
随机试验是对随机现象的观察、记录、实验的统称,是在相同条件下对某随机现象进行的大量重复观测,具有以下特点:①在试验前不能断定其将发生什么结果,但可明确指出或说明试验的全部可能结果是什么;②在相同的条件下试验可大量地重复;③重复试验的结果是以随机方式或偶然方式出现
2.条件概率
条件概率(Conditional Probability)是一种带有附加条件的概率
(A|B)表示在事件B发生的条件下,事件A发生的概率,相当于A在B中所占的比例
3.随机变量
随机变量(Random Variable)表示随机试验各种结果的实值单值函数,即能用数学分析方法来研究随机现象。
随机变量的性质主要有两类:一类是大而全的性质,这类性质可以详细描述所有可能取值的概率,例如描述连续型随机变量的累积分布函数(Cumulative Distribution Function,CDF)、概率密度函数(Probability Density Function,PDF),描述离散型随机变量的概率质量分布函数(Probability Mass Function,PMF)等;另一类是找到该随机变量的一些特征或代表值,例如随机变量的方差(Variance)、期望(Expectation)、置信区间等数字特征
4.离散随机变量的分布
离散型随机变量即在一定区间内变量取值为有限个或可数个
伯努利分布、二项分布、几何分布、泊松分布、超几何分布
- 伯努利分布
伯努利分布(Bernoulli Distribution)又称两点分布或0-1分布,其样本空间中只有两个点,一般取为{0,1},不同的伯努利分布只是取到这两个值的概率不同。伯努利分布只有一个参数 ,记作 X~Bernoulli(p),或 X~B(1,p),读作 X 服从参数为 p 的伯努利分布。 - 二项分布
如果把一个伯努利分布独立地重复 次,就得到了一个二项分布。
随机变量要满足二项分布有两个重要条件:①各次试验的条件是稳定的;②各次试验之间是相互独立的
二项分布关注的是计数,而伯努利分布关注的是比值(正面朝上的计数/n)
一个随机变量 X 服从参数为 n 和 p 的二项分布,记作 X~Binomial(n, p)或 X~B(n,p) - 泊松分布
如果某事件以固定强度 λ 随机且独立地出现,该事件在单位时间内出现的次数(个数)可以看成是服从泊松分布。我们把一个随机变量 X 服从参数为 λ 的泊松分布,记作 X~Poisson(λ),或 X~P(λ)。泊松分布适合于描述单位时间内随机事件发生次数的概率分布。
当二项分布的 n 很大而 p 很小时,泊松分布可作为二项分布的近似,其中 λ 为 np。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。
5.连续随机变量的分布
连续型随机变量即在一定区间内变量取值有无限个,或数值无法一一列举出来
均匀分布、指数分布、正态分布、伽马分布
- 均匀分布
均匀分布(Uniform Distribution)其概率密度是一个常数,不随随机变量 X 取值的变化而变化。如果连续型随机变量X具有如下的概率密度函数,则称 X 服从[a,b]上的均匀分布,记作 X~U(a,b)或 X~Unif(a,b)。 - 指数分布
指数分布和离散型的泊松分布之间有很大的关系。泊松分布表示单位时间(或单位面积)内随机事件的平均发生次数,指数分布则可以用来表示独立随机事件发生的时间间隔。由于发生次数只能是自然数,所以泊松分布自然就是离散型的随机变量,而时间间隔则可以是任意的实数,因此其定义域是(0,+∞)
如果一个随机变量 X 的概率密度函数满足以下形式,就称 X 为服从参数 λ 的指数分布(Exponential Distribution),记作 X~E(λ)或 X~Exp(lλ)。指数分布只有一个参数λ,且 λ>0。
指数分布的一个显著的特点是其具有无记忆性 - 正态分布
若随机变量 X 服从一个数学期望为 μ、方差为 σ²的正态分布,记为 N(μ,σ²)。其概率密度函数为正态分布的期望值 μ决定了其位置,其标准差 σ决定了分布的幅度。当 μ=0, σ=1时的正态分布是标准正态分布。
由于标准正态
分布在统计学中的重要地位,它的累积分布函数CDF有一个专门的表示符号: Φ。
正态分布中的两个参数含义如下:
当固定 σ,改变 μ的大小时,f(x)图形的形状不变,只是沿着轴作平移变换,因此 μ被称为位置参数(决定对称轴的位置);
当固定 μ,改变 σ的大小时,f(x)图形的对称轴不变,形状改变, σ越小,图形尖峰越陡峭。 σ越大,图形越平坦,因此 σ被称为尺度参数,决定曲线的分散程度。