《统计学习方法》第一章学习笔记

题外话（非书中所有）：统计学习书中讲到的方法和一般机器学习类书籍讲到的方法很像，那么统计学习和机器学习的区别在哪？从网上查了一些资料没找到明显的区别，如果有，大概是统计学习中的方法都是理论上可以证明的，机器学习中的方法更讲究实用，虽然理论上可能还未证明。如最近比较热的Deep Learning，就是理论上还未证明其正确性。

一、统计学习的特点：

统计学习关于数据的基本假设是同类数据具有一定的统计规律性，这是统计学习的前提。

实现统计学习方法的步骤：

1）得到一个有限的训练数据集；

　 2）确定包含所有可能的模型的假设空间；

3）确定模型选择的准则，即学习的策略；

4）实现求解最优模型的算法；

5）选择最优模型，对新数据进行预测或分析；

二、基本概念：

输入与输出所有可能取值的集合分别称为输入空间和输出空间。每个具体的输入是一个实例，通常由特征向量表示。所有特征向量存在的空间称为特征空间。模型实际都是定义在特征空间上的。

根据输入、输出变量的不同，可以将统计学习问题划分为：回归问题——输入、输出均为连续变量，分类问题——输入连续、输出离散，标注问题——输入、输出均为变量序列，如给句子分词、标词性等问题。感兴趣的可以想想，如果输入为离散，输出为连续，像预测房屋价格这样的问题，属于哪一类？应如何解决？

监督学习的模型可以是概率模型或非概率模型，由条件概率分布 \( P(Y | X) \) 或决策函数（decision function） \( Y=f(X) \) 表示，随具体学习方法而定。

三、统计学习三要素：

1）模型：

模型是指所要学习的条件概率分布或决策函数，模型所组成的空间为假设空间，根据模型为概率模型或非概率模型，假设空间可以表示为：

\( F = \big\{ f | Y=f(X) \big\} \) 或 \( F = \big\{ P | P(Y|X) \big\} \)

用参数空间表示即为： \( F = \big\{ f | Y=f_{\theta}(X), \theta \in R^{n} \big\} \) 或 \( F = \big\{ P | P_{\theta}(Y|X), \theta \in R^{n} \big\} \)

2）策略：

　　1、损失函数和风险函数：

为了从假设空间中选取最优模型，引入损失函数与风险函数的概念，损失函数度量模型一次的预测结果的好坏，风险函数度量平均意义下模型预测的好坏。

常用的损失函数有：

0-1损失函数 \( L(Y, f(X)) = \begin{cases}1, & Y \neq f(X) \\ 0, & Y = f(X) \end{cases} \)
平方损失函数 \( L(Y, f(X)) = (Y - f(X))^2 \)
对数损失函数 \( L(Y, P(Y|X))=-logP(Y|X) \)

风险函数，即损失函数的期望： \( R_{exp} = E_{P}[L(Y, f(X))] = \int_{X \times Y} L(y, f(x)) P(x,y) dxdy \) ，这里 \( P(X,Y) \) 是输入、输出变量 \( (X,Y) \)

的联合概率分布，当然 \( P(X,Y) \) 是未知的。如果知道 \( P(X,Y) \) ，就可以从联合分布求出条件概率分布 \( P(X,Y) \) ，也就不需要学习了。

经验风险，即关于训练数据集的平均损失， \( R_{emp}(f) = \frac{1}{N} \sum_{i=1}^{N} L(y_{i}, f(x_{i})) \) 。根据大数定律，当样本容量N趋于无穷时，经验风险 \( R_{emp}(f) \) 趋于期望风险 \( R_{exp}(f) \) 。所以很自然的想法是用经验风险估计期望风险，但由于训练样本有限，甚至很小，所以用经验风险估计期望风险并不理想，要对经验风险进行一定的矫正。这就关系到监督学习的两个基本策略：经验风险最小化和结构风险最小化。

　 2、经验风险最小化和结构风险最小化：

经验风险最小化，就是求解最优化问题： \( min_{f \in F} \frac{1}{N} \sum_{i=1}^{N} L(y_{i}, f(x_{i})) \) ，其中 \( F \) 是假设空间。

结构风险最小化，是为了防止过拟合，而在经验风险基础上加上表示模型复杂度的正则化项或罚项，定义为： \( R_{srm}(f) = \frac{1}{N} \sum_{i=1}^{N} L(y_{i}, f(x_{i})) + \lambda J(f) \) ，\( \lambda \geq 0 \) ，其中 \( J(f) \) 为模型的复杂度，是定义在假设空间 \( F \) 上的泛函。模型 \( f \) 越复杂，复杂度 \( J(f) \) 就越大。

书中提到，贝叶斯估计中的最大后验概率估计就是结构风险最小化。因为 \( \theta = max_{\theta} f(x| \theta ) h( \theta ) = max_{\theta} [log f(x| \theta) + log h( \theta )] = min_{ \theta } [-log f( x| \theta) - log h( \theta )] \)，所以当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时，结构风险最小化等价于最大后验概率估计。

正则化，是结构风险最小化策略的实现，是在经验风险上加一个正则化项或罚项，它的一般形式即 \(R_{srm} \)的定义。正则化项可以取不同的形式，如回归问题中，正则化项可以是参数向量的 \( L_{2} \)范数：

posted on 2013-12-04 10:44 michael_YM 阅读(531) 评论(2) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

michael_YM

《统计学习方法》第一章学习笔记

导航

公告