【统计学习方法】统计学习方法概论(2)
2012-12-19 22:34 Loull 阅读(332) 评论(0) 编辑 收藏 举报一、模型评估和模型选择
1、训练误差与测试误差
2、过拟合和模型选择
经验风险最小化会出现过拟合问题。
二、正则化与交叉验证
1、正则化
模型选择的典型方法是正则化。
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项。
正则化符合奥卡姆剃刀原理。
2、交叉验证
另一种常用的模型选择方法是交叉验证cross validation
随机将数据集切分成三部分:训练集,验证集,测试集。
验证集用于多模型的选择。
交叉验证的基本想法是重复地使用数据,吧给定的数据切分,将切分的数据集合为训练集与测试集,反复训练,测试,模型选择。
(1)简单交叉验证
(2)S折交叉验证
(3)留一交叉验证
三、泛化能力
四、生成模型与判别模型
1、生成模型:生成反复由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。
典型的有:朴素贝叶斯法、隐马尔可夫模型
2、判别模型:判别方法由数据直接学习决策函数f(X)或者条件概率分布P(X|Y)作为预测的模型,即判别模型。
典型的有:k近邻法,感知机,决策树,逻辑斯蒂回归模型,最大熵模型,支持向量机,提升方法,条件随机场等。