【统计学习方法】统计学习方法概论（1）

2012-12-17 22:51 Loull 阅读(454) 评论(0) 编辑收藏举报

一、统计学习，统计机器学习statistical machine learning

1、统计学习方法：给定训练数据training data，在假设空间hypothesis spase（假设要学习的模型属于某个函数的集合），应用某个评价准则evaluation criterion，从假设空间中选取一个最优的模型。

最优模型的选取由算法实现。

2、统计学习方法的三要素：模型的假设空间model，策略strategy（模型选择的准则），模型学习的算法algorithm。

3、步骤：

（1）得到training data

（2）确定所有可能的模型的假设空间，即学习模型的集合

（3）确定模型选择的准则，即学习的策略

（4）实现求解最优模型的算法，即学习的算法

（5）实验

（6）预测或分析

二、监督学习

1、每个具体输入时一个实例instance，又特征向量feature vector表示。

特征空间的每一维对应于一个特征

2、分类

回归问题：输入变量与输出变量均为连续变量的预测问题

分类问题：输出变量为有限个离散变量的预测问题

标注问题：输入变量与输出变量均为变量序列的预测问题

三、三要素

1、模型：输入到输出符合什么模型

决策函数表示的模型为非概率模型

由条件概率表示的模型为概率模型

2、策略：按照什么样的准则学习或选择最优的模型

1、损失函数loss function，记做L(Y,f(X))，度量预测的错误程度

（1）0-1损失函数

（2）平方损失函数

（3）绝对损失函数

（4）对数损失函数

2、期望风险，期望损失，风险函数R_exp(f)，学习的目标就是选择期望风险最小的模型

3、经验风险，经验损失R_emp(f)，用风险经验估计期望风险

4、用经验风险估计期望风险常常不理想，需要矫正。

5、经验风险最小化empirical risk minimization ERM，这个策略认为，经验风险最小的模型是最优模型。

极大似然估计就是风险经验风险最小化的一个例子。

当样本容量很小时，会出现过拟合over-fitting

6、结构风险最小化structural risk minimization SRM，是为了防止过拟合而提出的策略

结构风险最小化等价于正则化regularization

刷新页面返回顶部

Loull