《统计学习方法》第一章学习笔记

题外话(非书中所有):统计学习书中讲到的方法和一般机器学习类书籍讲到的方法很像,那么统计学习和机器学习的区别在哪?从网上查了一些资料没找到明显的区别,如果有,大概是统计学习中的方法都是理论上可以证明的,机器学习中的方法更讲究实用,虽然理论上可能还未证明。如最近比较热的Deep Learning,就是理论上还未证明其正确性。

一、统计学习的特点:

     统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。

     实现统计学习方法的步骤:

    1)得到一个有限的训练数据集;

  2)确定包含所有可能的模型的假设空间;

    3)确定模型选择的准则,即学习的策略

    4)实现求解最优模型的算法

    5)选择最优模型,对新数据进行预测或分析;

二、基本概念:

    输入与输出所有可能取值的集合分别称为输入空间输出空间。每个具体的输入是一个实例,通常由特征向量表示。所有特征向量存在的空间称为特征空间。模型实际都是定义在特征空间上的。

    根据输入、输出变量的不同,可以将统计学习问题划分为:回归问题——输入、输出均为连续变量,分类问题——输入连续、输出离散,标注问题——输入、输出均为变量序列,如给句子分词、标词性等问题。感兴趣的可以想想,如果输入为离散,输出为连续,像预测房屋价格这样的问题,属于哪一类?应如何解决?

    监督学习的模型可以是概率模型或非概率模型,由条件概率分布 \( P(Y | X) \) 或决策函数(decision function) \( Y=f(X) \) 表示,随具体学习方法而定。

 三、统计学习三要素:

   1)模型:

      模型是指所要学习的条件概率分布或决策函数,模型所组成的空间为假设空间,根据模型为概率模型或非概率模型,假设空间可以表示为:

\( F = \big\{ f | Y=f(X) \big\} \)   或   \( F = \big\{ P | P(Y|X) \big\} \)   

      用参数空间表示即为:  \( F = \big\{ f | Y=f_{\theta}(X), \theta \in R^{n} \big\} \)   或    \( F = \big\{ P | P_{\theta}(Y|X),  \theta \in R^{n} \big\} \)

   2)策略:

  1、损失函数和风险函数:

      为了从假设空间中选取最优模型,引入损失函数与风险函数的概念,损失函数度量模型一次的预测结果的好坏,风险函数度量平均意义下模型预测的好坏。

      常用的损失函数有:

  1. 0-1损失函数   \( L(Y, f(X)) = \begin{cases}1, & Y \neq f(X) \\ 0, & Y = f(X) \end{cases} \)
  2. 平方损失函数  \( L(Y, f(X)) = (Y - f(X))^2 \)
  3. 对数损失函数  \( L(Y, P(Y|X))=-logP(Y|X) \)    

      风险函数,即损失函数的期望: \( R_{exp} = E_{P}[L(Y, f(X))] = \int_{X \times Y} L(y, f(x)) P(x,y) dxdy \) ,这里 \( P(X,Y) \) 是输入、输出变量 \( (X,Y) \)

的联合概率分布,当然 \( P(X,Y) \) 是未知的。如果知道 \( P(X,Y) \) ,就可以从联合分布求出条件概率分布  \( P(X,Y) \) , 也就不需要学习了。 

      经验风险,即关于训练数据集的平均损失, \( R_{emp}(f) = \frac{1}{N} \sum_{i=1}^{N} L(y_{i}, f(x_{i})) \) 。根据大数定律,当样本容量N趋于无穷时,经验风险 \( R_{emp}(f) \) 趋于期望风险 \( R_{exp}(f) \) 。所以很自然的想法是用经验风险估计期望风险,但由于训练样本有限,甚至很小,所以用经验风险估计期望风险并不理想,要对经验风险进行一定的矫正。这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。

   2、经验风险最小化和结构风险最小化:

      经验风险最小化,就是求解最优化问题: \( min_{f \in F}   \frac{1}{N} \sum_{i=1}^{N} L(y_{i}, f(x_{i})) \) ,其中 \( F \) 是假设空间。

      结构风险最小化,是为了防止过拟合,而在经验风险基础上加上表示模型复杂度的正则化项或罚项,定义为: \( R_{srm}(f) = \frac{1}{N} \sum_{i=1}^{N} L(y_{i}, f(x_{i})) + \lambda J(f) \) ,\( \lambda \geq 0 \) ,其中 \( J(f) \) 为模型的复杂度,是定义在假设空间 \( F \) 上的泛函。模型 \( f \) 越复杂,复杂度 \( J(f) \) 就越大。

      书中提到,贝叶斯估计中的最大后验概率估计就是结构风险最小化。因为 \( \theta = max_{\theta} f(x| \theta ) h( \theta ) = max_{\theta} [log f(x| \theta) + log h( \theta )]  = min_{ \theta } [-log f( x| \theta) - log h( \theta )]  \),所以当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计。

     正则化,是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项,它的一般形式即 \(R_{srm} \)的定义。正则化项可以取不同的形式,如回归问题中,正则化项可以是参数向量的 \( L_{2} \)范数:

 

 

posted on 2013-12-04 10:44  michael_YM  阅读(531)  评论(2编辑  收藏  举报

导航