所以燃

Machine Learning --- GMM & QDA\LDA & EM algorithm

一、单高斯模型GSM(多元正态分布MVN)

image

当特征为2D时:

image

image

马氏距离=翻转坐标系下的欧式距离:

image

高斯分布证明(极大熵):

image

image

[例]拉格朗日乘子法对q求导:

image image

服从指数分布族:

image

证毕。

 

二、高斯混合模型GMM(多个单高斯的线性叠加,可逼近任意分布,每个高斯是一个聚类中心)

image

目标求三个参数:

image

(1)当样本类别已知时(简单问题):经验公式求解

image

image

应用:高斯判别分析QDA/LDA(产生式分类器)

类先验为:

image

类条件为:

image

当协方差阵为对角阵时(条件独立),即朴素贝叶斯Navie Bayes(典型的产生式分类器)。

决策规则(当各类协方差阵Σ一致时QDA转变为LDA):

image

LDA与QDA图例如下:

image

(2)当样本类别未知时(实际问题):EM法聚类

image

EM算法过程:

1、用随机函数初始化K个高斯分布的参数,同时保证:

image

2、依次取观察数据x,比较x在K个高斯函数中概率的大小,把x归到概率最大的那一类。

image

3、用最大似然估计,找到使观察数据x的概率最大,因为已经在第2步中分好类了,所以即简单问题的求法。

image

4、返回第2步用第3步新得到的参数来对观察数据x重新分类,直到下式概率(最大似然函数)达到最大。

image

EM实例如下:

image

 

三、两类LDA & FLDA(两个单高斯模型的分类)

1. 两类LDA(假设两类的协方差矩阵Σ相同)

image

决策函数等价于sigmoid函数:p(y=1|x)=sigm(wTx)

image

2.FLDA(将数据投影到保持分类信息的方向,降维后线性可分)

决策函数:p(y=1|x)=sigm(wTx)

image

目标:类间散度尽量大,类内散度尽量小。最大化:

image

类间散度矩阵:

image

类内散度矩阵:

image

为了最大化J(w):

image

image

若Sw可逆,则可转化为一般特征值问题:

image

若只关心方向,去掉缩放因子后:

image

当协方差矩阵各向同性时,w与类中心向量平行(同LDA)。

注:PCA也可通过特征值分解进行降维,把数据投影到特征值(方差)最大的方向,但降维后数据不一定可分。

image

posted on 2013-11-16 22:53  Jizhiyuan  阅读(1726)  评论(0编辑  收藏  举报

导航