生成学习算法(Generative Learning algorithms)

一：引言

在前面我们谈论到的算法都是在给定x的情况下直接对p(y|x;Θ)进行建模。例如，逻辑回归利用h_θ(x) = g(θ^Tx)对p(y|x;Θ)建模。

现在考虑这样一个分类问题，我们想根据一些特征来区别动物是大象(y=1)还是狗(y=0)。给定了这样一个训练集，逻辑回归或感知机算法要做的就是去找到一个决策边界，将大象和狗的样本分开来。但是如果换个思路，首先根据大象的特征来学习出一个大象的模型，然后根据狗的特征学习出狗的模型，最后对于一个新的样本，提取它的特征先放到大象的模型中求得是大象的概率，然后放到狗的模型中求得是狗的概率，最后我们比较两个概率哪个大，即确定这个动物是哪种类型。也即求p(x|y)(也包括p(y))，y为输出结果，x为特征。

上面介绍了那么多，现在我们来试着定义这两种解决问题的方法：

判别学习算法（discriminative learning algorithm）：直接学习p(y|x)或者是从输入直接映射到输出的方法

生成学习算法（generative learning algorithm）：对p(x|y)(也包括p(y))进行建模。

为了深化理解生成学习算法，我们再看

y:输出变量，取两值，如果是大象取1，狗则取0

p(x|y = 0)：对狗的特征进行建模

p(x|y = 1)：对大象的特征建模

当我们对p(x|y)和p(y)完成建模后，运用贝叶斯公式，就可以求得在给定x的情况下y的概率，如下：

p(x) = p(x|y = 1)p(y = 1) + p(x|y =0)p(y = 0)

由于我们关心的是y离散结果中哪一个的概率更大，而不是要求得具体的概率，所以上面的公式我们可以表达为：

常见的生成模型有：隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等

二：高斯判别分析(Gaussian Discriminant Analysis)

下面介绍第一个生成学习算法，GDA。在GDA中，假设p(x|y)是多项正态分布

2.1 多项正态分布(The multivariate normal distribution)

n维的多项正态分布也成为多项高斯分布。参数为均值向量μ∈Rⁿ ，协方差矩阵∑∈R^nxn，记为其概率密度表示为：

|Σ|表示矩阵Σ的行列式(determinant)

均值：

协方差:Cov(Z) =E[(Z − E[Z])(Z − E[Z])^T]=E[ZZ^T ]− (E[Z])(E[Z])^T=Σ。If X ∼ N (µ, Σ)，则Cov(X) = Σ.

接下来我们结合图像看一下多项高斯分布的例子。

说明：

左边第一个图，μ为一个2x1的向量，值为0，协方差矩阵∑=I（2x2的单位向量）此时的高斯分布称为标准正态分布

第二个图，μ不变，∑=0.6I

第三个图，μ不变，∑=2I

所以，决定中心位置，决定投影椭圆的朝向和大小。

2.2高斯判别分析模型(The Gaussian Discriminant Analysis model)

现在有一个分类问题，训练集的特征值x是随机连续值，那么我们可以利用高斯判别分析模型，假设p(x|y)满足多值正态分布，即：

概率分布为：

模型参数为φ, Σ, µ₀ and µ₁ ，对数似然函数为：

注意这里的参数有两个，表示在不同的结果模型下，特征均值不同，但我们假设协方差相同。反映在图上就是不同模型中心位置不同，但形状相同。这样就可以用直线来进行分隔判别。

求得所有的参数：

是训练样本中结果y=1占有的比例。

是y=0的样本中特征均值。

是y=1的样本中特征均值。

是样本特征方差均值。

所以通过上面所述，画出图像如下图：

直线两边的y值不同，但协方差矩阵相同，因此形状相同。不同，因此位置不同。

2.3讨论GDA和逻辑回归(Discussion: GDA and logistic regression)

现在我们把p(y = 1|x; φ, µ₀, µ₁, Σ)看成是x的函数，则可以表达为：

θ 是参数φ, Σ, µ₀, µ₁的函数，这正是逻辑回归的形式。

逻辑回归和GDA在训练相同的数据集的时候我们得到两种不同的决策边界，那么怎么样来进行选择模型呢：

上面提到如果p(x|y)是一个多维的高斯分布，那么p(y|x)可以推出一个logistic函数；反之则不正确，p(y|x)是一个logistic函数并不能推出p(x|y)服从高斯分布.这说明GDA比logistic回归做了更强的模型假设.

如果p(x|y)真的服从或者趋近于服从高斯分布，则GDA比logistic回归效率高.

当训练样本很大时，严格意义上来说并没有比GDA更好的算法（不管预测的多么精确）.

事实证明即使样本数量很小，GDA相对logisic都是一个更好的算法.

但是，logistic回归做了更弱的假设，相对于不正确的模型假设，具有更好的鲁棒性（robust）.许多不同的假设能够推出logistic函数的形式. 比如说，如果那么p(y|x)是logistic. logstic回归在这种类型的Poisson数据中性能很好. 但是如果我们使用GDA模型，把高斯分布应用于并不是高斯数据中，结果是不好预测的，GDA就不是很好了.

三：朴素贝叶斯(Naive Bayes)

在GDA中，特征向量x是连续的实数向量，那么现在谈论一下当x是离散时的情况。

我们沿用对垃圾邮件进行分类的例子，我们要区分邮件是不是垃圾邮件。分类邮件是文本分类的一种应用

将一封邮件作为输入特征向量，与现有的字典进行比较，如果在字典中第i个词在邮件中出现，则x_i=1，否则x_i=0，所以现在我们假设输入特征向量如下：

选定特征向量后，现在要对p(x|y)进行建模：

假设字典中有50000个词，x ∈ {0, 1}⁵⁰⁰⁰⁰如果采用多项式建模，将会有2⁵⁰⁰⁰⁰种结果，2⁵⁰⁰⁰⁰-1维的参数向量，这样明显参数过多。所以为了对p(x|y)建模，需要做一个强假设，假设x的特征是条件独立的，这个假设称为朴素贝叶斯假设(Naive Bayes (NB) assumption),这个算法就称为朴素贝叶斯分类(Naive Bayes classifier).

解释：

如果有一封垃圾邮件(y=1),在邮件中出现buy这个词在2087这个位置它对39831这个位置是否出现price这个词都没有影响，也就是，我们可以这样表达p(x₂₀₈₇|y) = p(x₂₀₈₇|y, x₃₉₈₃₁)，这个和x₂₀₈₇and x₃₉₈₃₁ 相互独立不同，如果相互独立，则可以写为p(x₂₀₈₇) = p(x₂₀₈₇|x₃₉₈₃₁)，我们这里假设的是在给定y的情况下，x₂₀₈₇and x₃₉₈₃₁ 独立。