《统计学习方法》三要素和模型的选择

统计学习的三要素：

统计学习方法 = 模型 + 策略 + 算法

无监督学习

模型有以下三种表示方式：

Z来自于隐式结构空间的。

模型相应的假设空间分别是：所有可能的函数组成的集合，给定x的情况下z的条件概率分布集合或者给定z的情况下x的条件概率分布集合。

参数空间：所有可能的参数θ。

策略：优化目标函数

算法：通常是迭代算法

监督学习

模型

假设空间（Hypothesis Space）：所有可能的条件概率分布或者决策函数，用F表示。

策略

假设空间中的每一个模型F，都求一个风险函数，值最小的F就是最优模型。

但是，联合分布P(x,y)并不能求出，所以风险函数不能直接进行计算。此时我们选择一个经验值替代。

四种常见的损失函数：

当样本容量N足够大的时候，可以认为经验风险是风险函数的一个估计值：

此时，只需要选取使经验风险最小的模型函数即可。

但是，当样本容量N比较小的时候，仅仅将经验风险最小化，可能会造成过拟合的情况。因此引入结构风险的概念，结构风险就是在经验风险的基础上加了一个惩罚项：

这个惩罚项J(f)是针对模型的复杂度的，模型越复杂结构风险越小。结构风险平衡了经验风险和模型的复杂度。结构风险最小化，就是选取使得结构风险最小的那个模型。

监督学习的策略就是选取一个目标函数（经验分享/结构风险），通过优化这个目标函数达到学习模型的目的。

算法

算法是用来求解最优模型的。若优化问题存在显示解，则算法较为简易。通常是不存在解析解的，需要数值计算的方法，比如梯度下降法。

当模型、策略、算法决定的时候，相应的统计学习的方法也就决定了。

训练误差与测试误差

定义：

过拟合

过拟合（Over-Fitting）：学习所得模型包含参数过多，出现对已知数据预测很好，但对未知数据预测很差的现象。

模型选择时，要尽可能选择训练误差和测试误差都较小的模型。

模型选择：正则化与交叉验证

正则化：使得结构风险最小化的策略。

一般形式：
经验风险：
正则化项：（惩罚项）

其中，J(f)代表模型的复杂度。模型参数越多，复杂度越高。
越大，最后通过正则化选择的模型参数就会越少，模型越简单。

常见的正则化项

奥卡姆剃刀原理

内容：在模型选择时，选择所有可能模型中，能很好解释已知数据并且十分简单的模型。

交叉验证

数据充足的情况下，将数据集分为训练集、验证集和测试集。

数据不足的情况下，采用交叉验证的方法。

简单交叉验证：将数据集随机分为两个部分，训练集和测试集。

S折交叉验证：随机将数据分为S个互不相交、大小相同的子集，其中以S-1个子集作为训练集，余下的子集作为测试集。

留一交叉验证：S折交叉验证的特殊情形，取S=N。

posted @ 2021-02-21 20:14 小艾shea 阅读(530) 评论(0) 编辑收藏举报

刷新页面返回顶部

Live2D