【机器学习笔记】--------损失函数

损失函数定义

在监督学习中,由给定的输入X,通过模型 h(x) 出的的预测值 y,与真实值Y不可能完全一致,这时,采用一个损失函数,或者是代价函数来表示这个预测错误的程度


常见的损失函数

这里写图片描述

  损失函数值越小,模型就越好,由于模型的输入、输出(X,Y)是随机变量,遵循联合分布P(X, Y),所以损失函数的期望是:
期望损失或者风险损失

  这个函数称为期望损失或者是风险损失

学习目标就是选择期望风险最小的模型,由于联合分布P(X, Y)是未知的,所以期望损失不能直接计算,实际上,如果知道了联合分布P(X, Y), 可以直接从联合分布直接求出条件概率分布P(Y|X)了, 也就不需要学习了, 这样一来,一方面根据期望风险最小学习模型要用到联合分布,另一方面,联合分布又是未知的,所以监督学习成为了一个病态问题(ill-fromed problem)


经验风险(经验损失函数)

  定义:模型f(x) 关于训练数据集的平均损失函数称为经验风险或经验损失函数。
  公式:
这里写图片描述
这个公式也是一般最常见的损失函数的写法


期望风险和经验风险的关系与缺陷

  1. 期望风险是关于联合分布期望的损失
  2. 经验风险是模型关于训练样本集的平均损失
  3. 根据大树定律,当N趋向于无穷大的时候,经验风险趋向于期望风险,所以当数据无穷多的时候,可以用经验风险当做期望风险
  4. 但是实际上,通常样本数量不够多,使用经验风险估计期望风险往往效果不太好(过拟合),所以需要增加一定的矫正,这就引出了经验风险最小化和结构风险最小化

我的个人理解,不一定对

期望风险是对未来的误差大小的判定(我希望得到的),而经验风险是我根据训练集数据所得到的误差(我已经得到的),两者本身是两个不同的东西,而我期望用经验风险去估计期望风险,这样两者就产生了关系。


经验风险最小化与结构风险最小化

  经验风险最小化

  在假设空间、损失函数以及训练数据集确定的情况下,经验风险函数式就可以确定经验风险最小化。经验风险最小化的策略认为,经验风险最小化的模型就是最有模型。根据这一个策略,就可以得到经验风险最小化的结构模型:
这里写图片描述
   当样本容量足够大,就会取得较好的模型效果,在现实中得到了广泛的英语,不如说:极大似然估计就是经验风险最小化的一个例子,当模型是条件概率分布的时候,损失函数式对数损失函数时,经验风险最小化就等价于极大似然估计。

经验风险最小化学习的缺陷:
如果样本容量小,会产生过拟合问题

结构风险最小化
  是为了防止过拟合而提出的策略,结构风险最小化等价于正则化,是在经验风险最小化的基础上加上正则化项或者惩罚项
定义式:
这里写图片描述

J(f)可以使用l1 或者l2范数


参考:李航 《统计学习方法》

 

posted @ 2018-06-09 15:20  NaLaEurCAS  阅读(791)  评论(0编辑  收藏  举报