代码改变世界

【统计学习方法】统计学习方法概论(2)

2012-12-19 22:34  Loull  阅读(332)  评论(0编辑  收藏  举报

一、模型评估和模型选择

1、训练误差与测试误差

2、过拟合和模型选择

经验风险最小化会出现过拟合问题。

 

二、正则化与交叉验证

1、正则化

模型选择的典型方法是正则化。

正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项。

正则化符合奥卡姆剃刀原理。

2、交叉验证

另一种常用的模型选择方法是交叉验证cross validation

随机将数据集切分成三部分:训练集,验证集,测试集。

验证集用于多模型的选择。

交叉验证的基本想法是重复地使用数据,吧给定的数据切分,将切分的数据集合为训练集与测试集,反复训练,测试,模型选择。

(1)简单交叉验证

(2)S折交叉验证

(3)留一交叉验证

 

三、泛化能力

 

四、生成模型与判别模型

1、生成模型:生成反复由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。

典型的有:朴素贝叶斯法、隐马尔可夫模型

2、判别模型:判别方法由数据直接学习决策函数f(X)或者条件概率分布P(X|Y)作为预测的模型,即判别模型。

典型的有:k近邻法,感知机,决策树,逻辑斯蒂回归模型,最大熵模型,支持向量机,提升方法,条件随机场等。