《统计学习方法》 三要素和模型的选择

统计学习的三要素:

统计学习方法 = 模型 + 策略 + 算法

 

无监督学习

模型有以下三种表示方式:

Z来自于隐式结构空间的。

模型相应的假设空间分别是:所有可能的函数组成的集合,给定x的情况下z的条件概率分布集合 或者 给定z的情况下x的条件概率分布集合。

参数空间:所有可能的参数θ

策略:优化目标函数

算法:通常是迭代算法

 

监督学习

  • 模型

假设空间(Hypothesis Space):所有可能的条件概率分布或者决策函数,用F表示。

  • 策略

假设空间中的每一个模型F,都求一个风险函数,值最小的F就是最优模型。

但是,联合分布P(x,y)并不能求出,所以风险函数不能直接进行计算。此时我们选择一个经验值替代。

四种常见的损失函数:

当样本容量N足够大的时候,可以认为经验风险是风险函数的一个估计值:

此时,只需要选取使经验风险最小的模型函数即可。

但是,当样本容量N比较小的时候,仅仅将经验风险最小化,可能会造成过拟合的情况。因此引入结构风险的概念,结构风险就是在经验风险的基础上加了一个惩罚项:

这个惩罚项J(f)是针对模型的复杂度的,模型越复杂结构风险越小。结构风险平衡了经验风险和模型的复杂度。结构风险最小化,就是选取使得结构风险最小的那个模型。

监督学习的策略就是选取一个目标函数(经验分享/结构风险),通过优化这个目标函数达到学习模型的目的。

  • 算法

算法是用来求解最优模型的。若优化问题存在显示解,则算法较为简易。通常是不存在解析解的,需要数值计算的方法,比如梯度下降法。

 

当模型、策略、算法决定的时候,相应的统计学习的方法也就决定了。

 

训练误差与测试误差

定义:

 

过拟合

过拟合(Over-Fitting):学习所得模型包含参数过多,出现对已知数据预测很好,但对未知数据预测很差的现象。

模型选择时,要尽可能选择训练误差和测试误差都较小的模型。

 

模型选择:正则化与交叉验证

正则化:使得结构风险最小化的策略。

  1. 一般形式:

  2. 经验风险:

  3. 正则化项:(惩罚项)

    其中,J(f)代表模型的复杂度。模型参数越多,复杂度越高。

    越大,最后通过正则化选择的模型参数就会越少,模型越简单。

常见的正则化项

奥卡姆剃刀原理

内容:在模型选择时,选择所有可能模型中,能很好解释已知数据并且十分简单的模型。

交叉验证

数据充足的情况下,将数据集分为训练集、验证集和测试集。

数据不足的情况下,采用交叉验证的方法。

简单交叉验证:将数据集随机分为两个部分,训练集和测试集。

S折交叉验证:随机将数据分为S个互不相交、大小相同的子集,其中以S-1个子集作为训练集,余下的子集作为测试集。

留一交叉验证:S折交叉验证的特殊情形,取S=N。

posted @ 2021-02-21 20:14  小艾shea  阅读(530)  评论(0编辑  收藏  举报
Live2D