概念
监督学习方法可以分为生成方法(generative approach)和判别方法(discriminative approach),学习到的模型对应地可分为生成模型(generative model)和判别模型(discriminative model).生成模型的计算过程为,先根据既有数据学习出联合概率分布\(P(X,Y)\),然后再根据输入特征的分布\(P(X)\)来学习出条件概率分布,表达式为:
\[P(Y|X) = \frac{P(X,Y)}{P(X)}
\tag{1}
\]
而判别模型则是求出决策函数之后,根据决策函数输出对应的结果,也可直接学习出条件概率分布来预测,但是,判别模型不会去学习数据的联合概率分布.
\[Y = f(X)
\tag{2}
\]
特点
生成模型描述了给定输入\(X\)产生输出\(Y\)的生成关系,特点:
- 可以还原出数据的联合概率分布
- 学习收敛速度比较快,即在样本容量增加的时候,模型可以更快地收敛于真实的模型
- 存在隐变量时,仍然可以用生成方法来学习
判别模型能够直接用决策函数或者条件概率分布来预测结果,但是不学习数据的联合概率分布,特点:
- 不能还原数据的联合概率分布
- 学习的准确率比较高
- 能对数据进行各种程度上的抽象,定义特征并使用特征,可以简化问题
- 存在隐变量时,不能使用判别模型
典型模型
生成模型:
- 朴素贝叶斯法
- 隐马尔可夫模型
判别模型:
- k近邻法
- 支持向量机
- 感知机
- 决策树
- 逻辑斯谛回归模型
- 最大熵模型
- 提升方法
- 条件随机场