1_概率论基本概念
概率(probability)
物理意义:一个随机事件(对应于确定事件)发生的可能性,用0-1之间的一个实数衡量。
符号:P(A)
性质:
非负性 P(A)≥0
规范性 P(Ω)=1
可数可加性:对可数个两两互斥事件{Ai}i∈N有:
任意一个满足上述条件的函数P都可以作为样本空间Ω的概率函数,称函数值P(A)为Ω中事件A的概率。
期望(expectation)
物理意义:概率加权平均值,虽然这个值不一定是真实存在,尤其对于离散统计,但是有很重要的统计学意义。
符号:E[X] μ
公式:
连续变量,f(x)是概率密度函数,下式右边要绝对收敛
离散,下式右边要绝对收敛
性质:
1.期望值E 是线性函数。
2.X 和Y 为在同一概率空间的两个随机变量(可以独立或者非独立),a 和b 为任意实数。
一般的说,一个随机变量的函数的期望值并不等于这个随机变量的期望值的函数。
3.在一般情况下,两个随机变量的积的期望值不等于这两个随机变量的期望值的积。除非独立:
方差(variance)
物理意义:随机变量的离散程度,距离期望(概率加权平均值)作差平方的期望(再次乘以概率加权平均值)。
符号:Var(x)
公式:
连续随机变量
离散变量
条件概率(conditional probability)
物理意义:事件A在另外一个事件B已经发生条件下的发生概率。也成为后验概率。
符号:P(A|B),读作“在B条件下A的概率”。
公式:
性质:
对于两个独立事件A与B有
(两件事互不干扰)
对于两个互斥事件A与B有
(A.B同时发生的概率为0)
全概率公式(full probability)
物理意义:A事件的发生概率,利用A在所有情况的一个分割集合Bn(不交叉地划分整个事件空间)上发生的可能性计算。具体方式是累加(分割单元发生概率×分割单元上A发生的概率)。
符号: Pr(A)
公式:
假设{ Bn : n = 1, 2, 3, ... } 是一个概率空间的有限或者可数无限的分割(既 Bn为一完备事件组),且每个集合Bn是一个可测集合,则对任意事件A有全概率公式:
因为
所以
二项分布(Binomial distribution)
物理意义:是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。
符号: N次实验,每次事件发生概率为P
公式:
N次中恰好k次成功
性质:
期望
方差
进行一次伯努利试验,试验有两个可能的结果:1和0,前者发生的概率为p,后者的概率为1 − p。该试验的期望值等于μ = 1 · p + 0 · (1−p) = p。
该试验的方差也可以类似地计算:σ2 = (1−p)2·p + (0−p)2·(1−p) = p(1 − p).
最大似然估计(maximum likelihood estimation)
物理意义:已知一个概率分布的形式,但分布函数里面有未知参数θ,取一组样本X来估计整体的分布。方法将样本值代入似然函数(x1.x2...xn不变时候,θ的函数),对估计参数求一阶偏导数并令其等于零,这时候的参数值最稳定地满足了样本值,因为一阶导数等于零表示参数值估计错一点点,对样本的拟合效果影响最小。
符号:(θ的最大似然估计)
(概率密度函数)
(似然函数)
公式:
性质:
最大化一个似然函数同最大化它的自然对数是等价的。因为自然对数log是一个连续且在似然函数的值域内严格递增的上凸函数。[注意:可能性函数(似然函数)的自然对数跟信息熵以及Fisher信息联系紧密。]
参考:维基百科