[笔记]统计学习方法-1概论

书:李航老师的《统计学习方法》。

1.1 统计学习

统计学习(statistical learning)的方法:基于数据构建统计模型从而对数据进行预测与分析。

统计学习包括:supervised learning, unsupervised learning, semi-supervised learning, reinforced learning等。

这本书主要讨论 supervised learning

三要素:方法=模型+策略+算法。

步骤:

  1. 得到traing data
  2. 确定hypothesis space,即模型的集合
  3. 确定模型选择的准则,即策略
  4. 实现求解最优模型的算法,即算法
  5. 通过学习方法选择最优模型
  6. 利用学习的最优模型对test data进行预测或分析

1.2 监督学习

  1. 输入空间有时就是特征空间,有时映射到特征空间。模型都是定义在特征空间上的。
  2. 训练数据由输入(特征向量)-输出对组成,输入-输出对又称样本
  3. 输入输出都是连续的预测问题称为回归问题;输出是有限个离散变量的预测问题称为分类问题;输入输出均为变量序列的预测问题称为标注问题
  4. 监督学习关于数据的基本假设是输入输出具有联合概率分布

1.3 算法

  1. 监督学习的模型可以是条件概率分布P(Y|X)或决策函数Y=f(X), $\theta$取值于n维欧氏空间,即参数空间。
  2. 损失函数度量模型一次预测的好坏,风险函数度量模型平均预测的好坏。期望损失或风险函数=Int (P(x,y)L(x,y))dxdy,学习的目标是选择期望风险最小的模型
  3. 常用的loss function有:0-1, 平方,绝对值,对数等形式。
  4. 经验风险:测试集的损失函数的平均。样本容量大时效果好,小时容易过拟合。
  5. 结构风险:在经验风险基础上加上表示模型复杂度的正则项或惩罚项。结构风险小的模型预测效果比较好。这意味着模型比较简单。

1.4 模型评估与模型选择

  1. 训练误差和测试误差: 分别是对训练集和测试集的损失函数取平均的结果
  2. 过拟合与模型选择: 一味提高对训练集的预测能力,所选模型的复杂度往往比真模型更高,对未知数据预测很差,即 over-fitting。
    例子:多项式拟合

1.5 正则化与交叉验证

  1. 正则化

形式:
$$
\min_{f\element F} \underbrace{\frac{1}{N} \sum_{i=1}^{N} L(y_i, f(x_i))}{empirical risk} + \underbrace{\lambda J(f)}
$$

posted @ 2018-11-21 21:57  张志军  阅读(170)  评论(0编辑  收藏  举报