斯坦福大学机器学习——高斯判别分析

转自 http://blog.csdn.net/linkin1005/article/details/39054023

同朴素贝叶斯一样，高斯判别分析（Gaussian discriminant analysismodel, GDA）也是一种生成学习算法，在该模型中，我们假设y给定的情况下，x服从混合正态分布。通过训练确定参数，新样本通过已建立的模型计算出隶属不同类的概率，选取概率最大为样本所属的类。

一、混合正态分布（multivariate normal distribution）

混合正态分布也称混合高斯分布。该分布的期望和协方差为多元的：期望 $\mu\in R^{n}$ ,协方差 $\Sigma\in R^{n\times n}$ ，协方差具有对称性和正定性。混合高斯分布： $X\sim N(\mu,\Sigma)$ ，它的的概率密度函数为：

$p(x;\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu))$

其中， $\mu$ 为混合高斯分布的期望， $\Sigma$ 为其协方差， $|\Sigma|$ 表示协方差的行列式。 $Cov(X)=E[(X-E(X))(X-E(X))^{T}]$

下面用图形直观的看一下二维高斯分布的性质：

以上三个图形的期望都为： $\mu=[0,0]^{T}$ ，最左端图形的协方差 $\Sigma=I$ ，中间的 $\Sigma=0.6I$ ，最右端的 $\Sigma=2I$ ，我们可以看出：当 $\Sigma$ 变小时，图像变得更加“瘦长”，而当 $\Sigma$ 增大时，图像变得更加“扁平”。

再看看更多的例子：

以上三个图形的期望都为： $\mu=[0,0]^{T}$ ，从左至右三个图形的协方差分别的：

$\Sigma=\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$ $\Sigma=\begin{bmatrix} 1 & 0.5 \\ 0.5 & 1 \end{bmatrix}$ $\Sigma=\begin{bmatrix} 1 & 0.8 \\ 0.8 & 1 \end{bmatrix}$

可以看到随着矩阵的逆对角线数值增加，图形延方向，即底部坐标45度角压缩。图形在这个方向更加“扁”。

以上三幅图分别是以上图形的等高线，可以更直观的看到调整逆对角线的数值对图像的压缩程度。

以上三幅图保持协方差不变，期望的值分别为

$\mu=\begin{bmatrix} 1 \\ 0 \end{bmatrix}$ ； $\mu=\begin{bmatrix} -0.5 \\ 0 \end{bmatrix}$ ； $\mu=\begin{bmatrix} -1 \\ -1.5 \end{bmatrix}$

可以看出，随着期望的改变，图形在平面上平移，而其他特性保持不变。

二、高斯判别分析模型

如果特征值x是连续的随机变量，我们可以使用高斯判别分析模型完成特征值的分类。为了简化模型，假设特征值为二分类，分类结果服从0-1分布。（如果为多分类，分类结果就服从二项分布）

模型基于这样的假设：

$y\sim Bernoulli(\phi)$

$x|y=0 \sim N(\mu_0 , \Sigma)$

$x|y=1 \sim N(\mu_1 , \Sigma)$

他们的概率（密度）函数分别为：

$p(y)=\phi^{y}(1-\phi)^{1-y}$

$p(x|y=0)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu_{0})^{T}\Sigma^{-1}(x-\mu_{0}))$

$p(x|y=1)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu_{1})^{T}\Sigma^{-1}(x-\mu_{1}))$

模型的待估计参数为 $\phi,\Sigma,\mu_{0},\mu_{1}$ ，通常模型有两个不同的期望，而有一个相同的协方差。

该模型的极大似然对数方程为：

$l(\phi,\mu_{0},\mu_{1},\Sigma)$

$=log\prod_{i=1}^{m}{p(x^{(i)},y^{(i)};\phi,\mu_{0},\mu_{1},\Sigma)}$

$=log\prod_{i=1}^{m}{p(x^{(i)}|y^{(i)};\mu_{0},\mu_{1},\Sigma)p(y^{(i)};\phi)}$

求解该极大似然方程得：

$\phi=\frac{1}{m}\sum_{i=1}^{m}{\#\{y^{(i)}=1\}}$

$\mu_{0}=\frac{\sum_{i=1}^{m}\#\{y^{(i)}\}x^{(i)}}{\sum_{i=1}^{m}{\#\{y^{(i)}=0\}}}$

$\mu_{1}=\frac{\sum_{i=1}^{m}\#\{y^{(i)}\}x^{(i)}}{\sum_{i=1}^{m}{\#\{y^{(i)}=1\}}}$

$\Sigma=\frac{1}{m}\sum_{i=1}^{m}{(x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^{T}}$

在对 $\phi,\Sigma,\mu_{0},\mu_{1}$ 计算完成之后，将新的样本x带入进建立好的模型中，计算出、，选取概率更大的结果为正确的分类。

三、GDA和logistic回归

GDA模型和logistic回归模型存在这样有趣的关系：假如我们将 $p(y=1|x;\phi,\mu_{0},\mu_{1},\Sigma)$ 视作关于x的函数，该函数可以表示成logistic回归形式：

$p(y=1|x;\phi,\mu_{0},\mu_{1},\Sigma)=\frac{1}{1+exp(-\theta^{T}x)}$

其中， $\theta$ 可以用以 $\phi,\Sigma,\mu_{0},\mu_{1}$ 为变量的函数表示。

前文中已经提到，如果为混合高斯分布，那么，就可以表示成logistic回归函数形式；相反，如果可表示成logistic回归函数形式，并不代表服从混合高斯分布。这意味着GDA比logistic回归需要更加严格的模型假设，当然，如果混合高斯模型的假设是正确的，那么，GDA具有更高的拟合度。基于以上原因，在实践中使用logistic回归比使用GDA更普遍。

posted @ 2017-05-10 20:36 nolonely 阅读(1568) 评论(0) 收藏举报

刷新页面返回顶部

nolonely

很多时候不是我们做不好，而是没有竭尽全力......

斯坦福大学机器学习——高斯判别分析