判别式模型与生成式模型

判别式模型(Discriminative Model)是直接对条件概率p(y|x;θ)建模。常见的判别式模型有 线性回归模型、线性判别分析、支持向量机SVM、神经网络等。

生成式模型(Generative Model)则会对x和y的联合分布p(x,y)建模,然后通过贝叶斯公式来求得p(yi|x),然后选取使得p(yi|x)最大的yi

 

常见生成式模型:

混合高斯模型,估计了不同输入和类别的联合分布。

朴素贝叶斯,模型训练时采用联合概率分布积。

隐马尔科夫模型,建立了状态序列和观察序列的联合分布。

贝叶斯网络,概率图模型中的有向图网络,对联合分布建模,由各自局部条件概率分布相乘。

马尔科夫随机场,概率图模型中无向图网络,同样对联合分布建模,分解为极大团上势函数的乘积。

常见判别式模型:

条件随机场,在观测序列上对目标序列进行建模。

线性回归,在X的条件下Y的分布。

逻辑回归,在x的条件下两个分类的概率。

支持向量机,它的训练过程是在学习分类边界。

传统神经网络,同样是学习分类边界。

 

一个通俗的例子:

说是大飞哥要玩掷飞镖的游戏,飞镖偏离靶心的偏离其实是不确定的,所以适合用概率模型来描述。概率就是衡量可能性的指标。飞镖偏离靶心小于1厘米的概率,和风速,标靶距离都有关系。假定标靶距离可以是10到20米,风速可以是1米/秒到10米/秒,我们可以把每个距离下,每个风速情况下的偏离小于1厘米的概率,大于1厘米的概率整理成一个表格,就是距离与风速的联合概率分布。如下表所示:

所谓条件概率,即有条件的联合概率,比如,如果风速确定为1不变,那么偏离小于1厘米的概率就只和距离有关系了。如距离为10时,概率为99%和1%。这就是条件概率(风速是条件)


 

生成式特点:

对联合概率建模,学习所有分类数据的分布。

学习到的数据本身信息更多,能反应数据本身特性。

学习成本较高,需要更多的计算资源。需要的样本数更多,样本较少时学习效果较差。

推断时性能较差。

一定条件下能转换成判别式。

 

判别式特点:

对条件概率建模,学习不同类别之间最优边界。

捕捉不同类别特征的差异信息,不学习本身分布信息,无法反应数据本身特性。

学习成本较低,需要的计算资源较少。

需要的样本数可以较少,少样本也能很好学习。

预测时拥有较好性能。无法转换成生成式。

 

posted @ 2019-08-28 11:38  車輪の唄  阅读(1753)  评论(0编辑  收藏  举报