统计学习方法(一)——统计学习方法概论
一、统计学习
1、 实现的步骤
- 1) 得到一个有限的训练数据集合
- 2) 确定可能的假设学习空间,即学习模型的集合(例如决策树之类)
- 3) 确定模型选择的准则,即学习的策略
- 4) 实现求解最优模型的算法,即学习的算法
- 5) 通过学习算法选择最优模型
- 6) 利用最终模型进行预测与分析
2、 应用领域
人工智能、模型识别、数据挖掘、NLP、语音识别、图像识别、信息检索等
二、监督学习
三、学习算法三要素
1) 模型 2) 策略 3) 算法
1、策略的介绍
主要包括损失函数和风险函数,常用的有
四、正则化与交叉验证
1、正则化实质就是结构风险的具体化(本人理解)
例如回归问题中正则化可以表示为
2、 交叉验证
1) 简单交叉
70%的训练数据+30%的验证数据,利用验证数据挑选出测试误差最小的模型
2) S交叉
随机将数据分成S个子集,利用S-1个子集训练最后一个测试,可产生S个不同的模型(参数),寻找测试误差最小的模型
五、生成模型与判别模型
生成模型的的步骤为俩步,第一步先由数据学习联合概率分布 ,再求出条件概率分布作为预测模型