(原创)机器学习之概率与统计(三)- 极大似然估计

     目录

一、参数估计... 2

二、极大释然估计... 2

1.似然函数... 2

2.极大似然估计(MLE... 2

3.log似然函数... 2

4.损失函数... 2

5.求极大似然估计的一般步骤... 2

三、常见分布的参数估计... 3

1.高斯分布... 3

2Bernoulli分布... 3

3二项分布(Binomia... 4

4多项分布(Multinoull... 4

四、机器学习模型的参数估计... 5

1.回归... 5

2.线性回归... 5

2.1线性回归的极大似然估计... 5

3.Logistic回归... 7

3.1 Logistic回归的极大似然估计... 7

4. 朴素贝叶斯(Naive Bayes Classifier, NBC). 9

4.1定义... 9

4.2朴素贝叶斯的极大似然估计... 9

五、估计的评价... 10

1.    估计量的评价标准... 10

2.    偏差-方差分解... 10

3.    监督学习模型的偏差-方差分解... 11

4.    估计的抽样分布... 11

4.1参数Bootstrap. 12

4.2非参数Bootstrap. 12

 

 

一、参数估计

  参数估计,即估计模型的参数:给定模型p(x|Ɵ)和数据D,选择与数据最匹配的参数Ɵ

  常用估计模型参数的方法:

  (1)矩方法,比如一阶矩,二阶矩,K阶矩;

  (2)极大释然估计:频率学派

  (3)贝叶斯估计:贝叶斯学派

 

二、极大释然估计

1.似然函数

    似然(likelihood,可能性的意思),描述的是事件发生可能性的大小。

    似然函数的定义:

    设数据D=X1,…,XN为独立同分布(IID),其概率密度函数(pdf)为p(x|Ɵ),则似然函数定义为:

       clip_image001

    即为在给定数据D的情况下,参数为Ɵ的函数。

 

2.极大似然估计(MLE

    定义:使得似然函数L(Ɵ)最大的Ɵ的估计:

        clip_image002

3log似然函数

    定义:

       clip_image003

    即:

       clip_image004

    性质:

(1)  它和似然函数在相同的位置取极大值

(2)  在不引起混淆的情况下,有时记log似然函数为似然函数

(3)  相差常数倍也不影响似然函数取极大值的位置,因此似然函数中的常数项也可以抛弃

(4)  在分类中log似然有时亦称为交叉熵(cross-entropy)

 

4.损失函数

    损失函数 = log似然函数,即:

    损失函数 = - log p( Ɵ|D)

 

5.求极大似然估计的一般步骤

1)选择模型

2)得到密度函数p(x)

3)求似然函数L = Ʃ log.p(x)

4)对似然函数求极值(求导),得到参数估计

 

三、常见分布的参数估计

1.高斯分布

假设X1,…,XN ~ N (μ, δ2 ),参数为μ, δ2,则高斯分布:

   clip_image005

的似然函数为:

   clip_image006

其中,

样本均值:

   clip_image007 

样本方差:   

clip_image008

     因为有:

               clip_image009

      高斯分布的似然函数化简为:

    clip_image010

    求最大值(求梯度,解方程):

       clip_image011

  得到极值点(一阶导数为0):

      clip_image012[4]

     说明,使用样本的均值和方差作为高斯分布的参数估计,是极大似然的。

 

2.Bernoulli分布

Bernoulli分布的密度函数为:

clip_image013

其似然函数为:

     clip_image014

其中,N1为试验结果为1的次数,N2为试验结果为0的次数,

     clip_image015

求极大似然有:

     clip_image016

即样本实验结果为1的比率,是Bernoulli分布的参数Ɵ的极大释然估计。

 

3.二项分布(Binomia

Binomia分布的密度函数为:

clip_image017

    其似然函数为:

       clip_image018

    其极大释然估计和Bernoulli分布一样:

    求极大似然有:

     clip_image016[1]

即样本实验结果为1的比率,是 Binomia分布的参数Ɵ的极大释然估计。

 

4.多项分布(Multinoull

Multinoull分布的密度函数为:

clip_image019

其似然函数为(其中NK表示N次试验中出现k的次数):

   clip_image020

约束条件为:

   clip_image021

采用拉格朗日乘子法求极值:

  clip_image022

分别对λ和θk求偏导并令其等于0

clip_image023

即为θ的最大释然参数估计。

 

四、机器学习模型的参数估计

1. 回归

(1)  正态分布可用于回归系统噪声建模

(2)  回归是监督学习问题,是输入到输出的映射的学习。

(3)  回归问题的模型:

clip_image024

假设残差服从正态分布:

     clip_image025

    因此,回归问题的模型可以记为:

     clip_image026

    回归即预测其输出:

     clip_image027

2.线性回归

    线性回归:输入与输出呈线性关系。

    相信回归的模型:

       clip_image028

    即:

       clip_image029

    其中W0是截距,W为权重向量,ε为预测值和真值之间的残差。模型的参数为Ɵ =W, δ2

 

2.1 线性回归的极大似然估计

2.1.1 线性回归的似然函数

    线性回归的似然函数为:

       clip_image030

    其中,RSS表示残差平方和(residual sum of squares),即残差向量的L2模:

       clip_image031

    注:平均平方误差(MSE)  = RSS/N

 

2.1.2 log似然函数求参数估计

极大似然等价为极小负log似然损失(negative log likelihoodNLL)

clip_image032

    只取与w有关的项,得到:

       clip_image033

    因为有矩阵求导:

       clip_image034

所以NLL求导有:

        clip_image035

求解得到:

        clip_image036[4]

即为W的极大似然估计,把其代入NLL,则有:

        clip_image037

求导有:

clip_image038

求解得:

    clip_image039

以上便是线性回归参数Ɵ =W, δ2)的极大似然估计。

 

2.1.3 计算机求解线性回归的解极大似然估计

1)当样本数目N较小时,可采用OLS结论,用矩阵QR分解分解得到优化解。

2)当样本数目N较大时,可采用随机梯度下降方法优化求解:

<1> 目标函数:

     clip_image040

<2> 梯度下降法步骤:

i)给定初值w0

ii) 更新w,使得J(W)越来越小

   clip_image041

iii) w的各维同时更新:

   clip_image042

iv) 直到收敛到某个w值,使得J(W)最小

其中,α称为学习率,控制下降速度的大小。

 

3Logistic回归

1Logistic回归是线性回归的扩展,用于分类任务(0, 1

2)分类目标为二值变量,因此服从Bernoulli分布:

        P(y|θ)  = clip_image044

    其中y为类别输入(0,1)。

    假设输入为x的线性组合,即输入为x的函数μ(x),则Bernoulli分布的密度函数可以写为:

       P(y|μ(x) )  = clip_image046

    其中:0≤μ(x)1

(3)  Logistic回归中,输入的x的函数(概率密度函数)为:

μ(x) = sigm(wTx)

其中sigm()sigmoid函数,或logistic函数:

clip_image047

(4)  logistic回归的概率密度函数为:

clip_image048

 

 

3.1 Logistic回归的极大似然估计

(1)log似然函数求参数估计

Logistic回归的似然函数为:

     clip_image049

其中,

μi = μ(xi) = sigm(wTx)

    yi = 分类标签(0,1

(1)  梯度下降法求解

1)对似然函数进行求导

clip_image050

其中,

clip_image051

以上用到的矩阵求导:

clip_image052

2)得到梯度函数

clip_image053

3)使用梯度进行迭代

clip_image054

即:

clip_image055

其中,

clip_image056

(2)  牛顿法求解

1)牛顿法也叫牛顿-拉夫逊(Newton-Raphson)方法,也叫二阶梯度下降法。

2)原理:使用函数f(x)的泰勒级数的前面几项来寻找方程f(x)=0的根

3)步骤:

i)       将导数g(w)wt处进行Taylor展开:

clip_image057

ii)     由上式得到:

clip_image058

iii)   迭代式为:

clip_image059

 

 

4. 朴素贝叶斯(Naive Bayes Classifier, NBC)

4.1定义

       假设共有C个类别y(1,2,…,C),每个类别有特征X=(x1,x2,…xD), 则朴素贝叶斯为假设各维特征在给定类别标签的情况下条件独立:

clip_image060

概率密度函数:

       clip_image061

其中,π、θ分别为y的先验分布和类条件分布的参数。

4.2朴素贝叶斯的极大似然估计

1)似然函数为:

    clip_image062

    其中Ncy=c的样本数。

(2)  如果服从Bernoulli分布

clip_image063

则参数估计:

clip_image064

其中:

clip_image065

(3)  如果服从多值分布

clip_image066

则参数估计:

clip_image067

其中:

clip_image068

(4)  如果服从正泰分布

clip_image069

则参数估计:

clip_image070

(5)  使用朴素贝叶斯进行预测

将给定数据条件D换成参数的MLE插入,得到:

clip_image071

例如Bernoulli分布的预测:

clip_image072

 

五、估计的评价

1.   估计量的评价标准

一个好的估计具有的性质:

(1)   无偏性:估计量的期望等于真值的期望:

即估计的偏差(bias)

clip_image073

等于0。

(2)   相容性

若:

clip_image074

则该估计是相容(consistent)的。

(3)   有效性

无偏估计中,方差较小的一个更有效(收敛速度更快)

 

2.  偏差-方差分解

点估计的性能通过均方误差(MSE, mean squared error)来评价:

clip_image075

可分解为:

clip_image076

其中,

估计的偏差为:

 clip_image077

估计的变化程度(精度)为:

  clip_image078

(1)   如果bias = 0 称其为无偏估计

(2)   为了使估计的MSE小,估计的偏差和方差到要小。

 

3.   监督学习模型的偏差-方差分解

在回归任务中,学习算法f的平方预测误差期望为:

clip_image079

(1)   偏差:学习算法的预测的期望与真实结果的偏离程度, 即刻画了学习算法本身的拟合能力。

(2)   方差:同样大小的训练集的变动所导致的学习性能的变化, 即刻画了数据扰动所造成的影响。

(3)   噪声:在当前任务上任何学习算法所能达到的期望泛化误差的下界, 即刻画了学习问题本身的     难度。

 

4.  估计的抽样分布

解决的问题:分布的参数真值未知,无法产生真实的模拟数据。

如何解决?:估计的抽样分布

 

估计的抽样分布:

假设从真实分布:

       clip_image080

中进行S次抽样,每次的样本集的大小均为N, 得到数据集合

        clip_image081

根据每次抽样得到的数据D(s),都会得到一个估计:

        clip_image082

S -> ∞ 时,使用估计的参数代替真实的参数,称为估计的抽样分布。

 

4.1 参数Bootstrap

Bootstrap(一种重采样技术),用clip_image084代替clip_image086[4],从分布clip_image088[4]中产生样本。

 

4.2 非参数Bootstrap

从原始数据中进行N次有放回地采样N个数据,用经验分布近似真正的分布

 

               - tany 2017年10月9日于杭州

 

人工智能从入门到专家教程资料:https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.38270209gU11fS&id=562189023765

posted @ 2017-10-09 22:04  tanv  阅读(2169)  评论(1编辑  收藏  举报