[笔记]统计学习方法-1概论
书:李航老师的《统计学习方法》。
1.1 统计学习
统计学习(statistical learning)的方法:基于数据构建统计模型从而对数据进行预测与分析。
统计学习包括:supervised learning, unsupervised learning, semi-supervised learning, reinforced learning等。
这本书主要讨论 supervised learning
三要素:方法=模型+策略+算法。
步骤:
- 得到traing data
- 确定hypothesis space,即模型的集合
- 确定模型选择的准则,即策略
- 实现求解最优模型的算法,即算法
- 通过学习方法选择最优模型
- 利用学习的最优模型对test data进行预测或分析
1.2 监督学习
- 输入空间有时就是特征空间,有时映射到特征空间。模型都是定义在特征空间上的。
- 训练数据由输入(特征向量)-输出对组成,输入-输出对又称样本
- 输入输出都是连续的预测问题称为回归问题;输出是有限个离散变量的预测问题称为分类问题;输入输出均为变量序列的预测问题称为标注问题
- 监督学习关于数据的基本假设是输入输出具有联合概率分布
1.3 算法
- 监督学习的模型可以是条件概率分布P(Y|X)或决策函数Y=f(X), $\theta$取值于n维欧氏空间,即参数空间。
- 损失函数度量模型一次预测的好坏,风险函数度量模型平均预测的好坏。期望损失或风险函数=Int (P(x,y)L(x,y))dxdy,学习的目标是选择期望风险最小的模型
- 常用的loss function有:0-1, 平方,绝对值,对数等形式。
- 经验风险:测试集的损失函数的平均。样本容量大时效果好,小时容易过拟合。
- 结构风险:在经验风险基础上加上表示模型复杂度的正则项或惩罚项。结构风险小的模型预测效果比较好。这意味着模型比较简单。
1.4 模型评估与模型选择
- 训练误差和测试误差: 分别是对训练集和测试集的损失函数取平均的结果
- 过拟合与模型选择: 一味提高对训练集的预测能力,所选模型的复杂度往往比真模型更高,对未知数据预测很差,即 over-fitting。
例子:多项式拟合
1.5 正则化与交叉验证
- 正则化
形式:
$$
\min_{f\element F} \underbrace{\frac{1}{N} \sum_{i=1}^{N} L(y_i, f(x_i))}{empirical risk} + \underbrace{\lambda J(f)}
$$