【机器学习】统计学与概率论知识点汇总

  1. 常见分布
  • 正态分布:
  • 标准正态分布:
  • 对数正态分布:
  • 均匀分布:
  • 指数分布:
  • 伽玛分布:,其中
  • 分布:
  • 是来自正态总体的一个样本,则
  • 是来自标准正态分布的一样样本,则其平方和服从自由度为n的分布。
  • 贝塔分布:
  • t分布:t分布是正态总体的一个样本的样本均值与样本标准差的特定函数。当自由度较大(如)时,t分布可以用标准正态分布近似。
  • F分布:设随机变量,且两者独立,则的密度函数为,此分布为自由度为n与m的F分布,记为为自由度为n与m的F分布p分位数,有
  1. 分布特征数
    1. 特征数定义

分布的特征数刻画分布的位置、散布、偏度、峰度。其中偏度与峰度都是描述分布形状的特征数,他们都是以正态分布为基准。

  • 数学期望:
  • 方差:称为偏差,则偏差平方的数学期望为随机变量X(或相应分布)的方差,记为
  • 标准差:方差的平方根称为随机变量X(或相应分布)的标准差,记为
  • 变异系数:标准差与数学期望的比值,即,变异系数是无单位的量。
  • 偏度系数:,偏度系数是描述分布偏离对称性程度的一个特征数。称分布为正偏或右偏,称分布为负偏或左偏,分布关于是对称的。
  • 峰度系数:,峰度是描述分布尖峭程度和尾部粗细的一个特征数,是相对与正态分布而言的超出量。
  1. 常见分布的特征数

分布

均值

方差

偏度

峰度

均匀分布

0 

-1.2 

正态分布

0 

0 

指数分布

2 

6 

伽玛分布

  1. 假设检验

根据所获样本,运用统计分析方法对总体X的某种假设做出判断,具体包含建立假设,寻找检验统计量,构造拒绝域,直到最后做出判断四个步骤。

  1. 建立假设

一般假设检验问题需要建设两个假设:原假设与备择假设。假设全网客户Arpu服从正态分布,需要检测全网客户平均Arpu是否为40,则可建立以下两个假设:

原假设                        

备择假设                    (双侧检验问题)

某些情况下,Arpu允许过高不得过低或允许过低不得过高,则可建立以下两对假设:

原假设                        

备择假设                    (单侧检验问题)

原假设                        

备择假设                    (单侧检验问题)

  1. 选择检验统计量

为样本的Arpu均值,那么在原假设为真的情况下,经标准化变化可得

这里的u就是检验统计量,分子的绝对值是样本均值与总体均值之间的距离,其大小表征系统误差大小,分母是随机误差大小,两者比值表征系统误差是随机误差的倍数。可见若u的绝对值越大,系统误差越大,这是应倾向于拒绝;相反则倾向于不拒绝。即是寻找临界值c,使得:

,拒绝

,不拒绝

则称为该双侧检验问题的拒绝域,记为W。临界值c的确定将用控制犯错误概率确定。

  1. 根据显著性水平,确定临界值

在假设检验中可能犯的错误有如下两类:

第I类错误(拒真):原假设为真,由于抽样随机性,样本落在拒绝域,从而导致拒绝原假设,其发生概率记为又称为显著性水平。

第Ⅱ类错误(取伪):原假设不真,单由于抽样随机性,样本未落在拒绝域,从而导致接受原假设,其发生概率为

由此可见,=P(犯第I类错误)=P(为真时拒绝)。

这个概率是成立下,计算拒绝域的概率,此时,则:

其中为标准正态分布函数,由上式知,是c的严减函数,即越小,拒绝域越小。

一般理论研究表明:随着的减小,在增加;随着样本量的增加,在减小。

  1. P值判断

一个假设检验问题中不同的显著性水平会导致不同的结论,而显著性水平的选择又带有人为因素,因此提出"p值"的概念,即:在一个假设检验问题中,拒绝原假设的最小显著性水平称为p值。

值,则拒绝原假设;若值,则接受原假设。

  1. 卡方拟合优度检验(检验)
    1. 定义

检验需要将总体分类为有限类,检验结论依赖于分组,不同分组有可能得出不同的结论,故在检验在连续分布场合有一定的不足之处。

将总体分为有限类(分组经验公式,n为样本量),每类中的观察频数为,根据原假设每类中的期望频数为,则检验的检验统计量。当n充分大时,近似服从自由度为分布,其中为分类组数,为假设分布的未知参数个数。对于显著性水平拒绝域为

每类中的期望频数不应过小,建议取

  1. 列联表的独立性检验

检验可应用于检验两个分类随机变量之间的独立性。

 

X 

行和

Y 

 

列和

n 

X与Y独立时,对一切的i和j有,因此假设检验为:

原假设                    

备择假设        至少有一对i,j,使得

其拒绝域为,其中,这里仍然要求

posted @ 2016-03-25 20:53  SevnChen  阅读(5100)  评论(0编辑  收藏  举报