统计学习方法三要素

统计学习方法三要素

  • 方法=模型+策略+算法
  • 构建一种统计学习方法就是确定具体的统计学习三要素

1.模型

  • 统计学习首要考虑的问题就是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率或决策函数。
  • 模型的假设空间:包括所有可能的条件概率分布或决策函数
    • 假设空间用\(F\)表示。假设空间可以定义为决策函数的集合
      \(F=\{f|Y=f(X)\}\)
    • 假设空间也可以定义为条件概率的集合
      \(F=\{P|P(Y|X)\}\)

2.策略

  • 策略就是我们要按照什么样的准则学习选择模型假设空间中的模型。我们首先引入损失函数和风险函数的概念

2.1损失函数和风险函数

  • 对于给定的输入X模型f(X)会生成一个对应的输出Y,这个输出的预测值f(X)与真实值Y可能一致也可能不一致,我们用一个损失函数来度量预测的错误程度,损失函数是\(f(X)\)\(Y\)的非负实值函数,记作\(L(Y.f(X))\)

  • 统计学习中常用的损失函数有以下几种:
    (1) 0-1损失函数

    \[L(Y,f(X))=\begin{cases}1,\qquad Y\neq f(X)\\0,\qquad Y=f(X)\\\end{cases} \]

    (2) 平方损失函数

    \[L(Y,f(X))=(Y-f(X))^2. \]

    (3) 绝对损失函数

    \[L(Y,f(X))=|Y-f(X)|. \]

    (4) 对数损失函数或对数似然损失函数

    \[L(Y,f(X))=-logP(Y|X). \]

  • 损失函数值越小,模型对训练数据的拟合程度就越好。由于模型的输入,输入\((X,Y)\)是随机变量,遵循联合分布\(P(X,Y)\),因此损失函数的期望是:

\[R_{exp}(f)=E_P[L(Y,f(X))]=\int_{X\times Y}L(y,f(x))P(x,y)dxdy. \]

  • 上式是理论上模型\(f(X)\)关于联合分布\(P(X,Y)\)的平均意义下的损失,称为风险函数或期望损失

  • 我们学习的目标就是选择期望风险最小的模型,但是由于联合分布函数\(P(X,Y)\)未知,因此上式并不能直接计算得到。实际上,如果我们知道了分布函数,那么我们可以从\(P(X,Y)\)中直接得到\(P(Y|X)\),也就不需要学习了。这样就陷入了一个矛盾:我们需要得到数据的联合分布来选择期望风险最小的模型;而另一方面数据的联合分布又是未知的,这样监督学习就成为了一个病态的问题。

  • 为了解决上述问题,我们提出了经验风险或经验损失,记为\(R_{emp}\)

\[R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i)). \]

  • 期望风险\(R_{exp}\)是模型关于联合分布的期望损失,经验风险\(R_{emp}\)是模型关于训练样本集的平均损失。根据大数定理,当样本容量N趋近于无穷时,经验风险趋于期望风险。因此我们可以用经验风险估计期望风险。但是由于现实中训练集数据量有限,所以用经验风险估计期望风险常常并不理想,因此需要对经验风险进行一定的矫正。这就关系到监督学习两个基本策略:经验风险最小化和结构风险最小化。

2.2 经验风险最小化和结构风险最小化

  • 在模型假设空间、损失函数以及训练数据集确定的情况下,经验风险函数就可以确定。经验风险最小化策略认为,经验风险最小的模型是最优的模型。按照经验风险最小化求最优模型就是求解最优化问题:

\[\min_{f\in F}\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i)). \]

  • 其中\(F\)为模型假设空间。
  • 但是正如2.1中所说的,在训练集足够大的情况下,经验风险最小化能保证有很好的学习效果,因此在现实中被广泛的采用。如极大似然估计就是经验风险最小化的一个例子。当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化酒等价于极大似然估计。
  • 但是当样本容量很小时,经验风险最小化的效果未必很好,会产生“过拟合”现象。为了解决“过拟合”问题,我们提出了结构风险最小化(SRM)策略。结构风险最小化等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项或罚项。在假设空间、损失函数以及训练数据集确定的情况下,结构风险的定义为:

\[R_{srm}=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f). \]

  • 其中\(J(f)\)为模型的复杂度。也就是说说,模型的复杂度表示了对复杂模型的惩罚。结构风险最小化要求经验风险与模型复杂度同时小,避免了模型因为复杂度而出现过拟合的情况。结构风险小的模型往往对训练集和未知的测试集数据都有较好的预测。如贝叶斯估计中的最大后延概率估计就是结构风险最小化策略的一个例子。当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示是,结构风险最小化就等价于最大后验概率估计。
  • 结构风险最小化策略认为结构风险最小的模型为最优的模型。所以求解最优模型,就是求解最优化问题:

\[\min_{f\in F}\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f) \]

  • 基于上述描述策略,监督学习问题就变成了经验风险最小化或结构风险最小化的最优化问题。经验或结构风险函数为目标函数。

3.算法

  • 算法是指学习模型的具体计算方法。根据学习策略,从假设空间中选择最优的模型时我们要考虑用什么样的算法求解最优模型。此时统计学问题已经被归结为最优化问题,统计学习的算法成为求解最优化问题的算法。

——《统计学习方法》

觉得有帮助给笔者点个订阅点个赞呀! O(∩_∩)O

posted @ 2021-11-16 12:53  茶柒每天要学习  阅读(403)  评论(0编辑  收藏  举报