统计学习方法概论

统计学习定义：统计学习是关于计算机基于数据构建概论统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也统称为统计机器学习。从定义中可以看出统计学习的对象是数据，通过提取数据特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去。

监督学习

监督学习的任务是学习一个模型，使模型能够对任意的输入，对其相应的输出做出一个好的预测。

监督学习中将输入和输出所有可能取值的集合分别称为输入空间和输出空间，输入和输出空间可以是有限元素的集合也可以是整个欧式空间。输入和输出空间可以是同一个空间，也可以是不同的空间，通常输入空间远大于输出空间。

每一个输入就是一个实例，通常由特征向量表示。所有特征向量存在的空间成为特征空间，特征空间每一维对应于一个特征。有时输入空间和特征空间为不同空间，需要将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上的。

在监督学习中，输入变量和输出变量是定义在输入空间和输出空间上的随机变量的取值。输入、输出变量用大写字母表示，习惯上输入变量写作X，输出变量写作Y。输入输出变量所取的值用小写字母表示，输入变量取值写作x，输出变量取值写作y。变量可以是标量或向量，用相同字母类型表示。如下输入实例x的特征向量记作：

x=(x⁽¹⁾,x⁽²⁾,···,x⁽ⁱ⁾,···,x⁽ⁿ⁾)^T

x⁽ⁱ⁾表示x的第i个特征，x⁽ⁱ⁾不同于x_i，x_i表示多个输入变量中的第i个。监督学习从训练数据集合中学习模型，对测试数据进行预测。训练数据由输入与输出组成，训练集通常表示为：

T={(x₁,y₁),(x₂,y₂),···,(x_n,y_n)}

输入变量X和输出变量Y有不同的类型，可以是连续的，也可以是离散的。人们根据输入、输出变量的不同类型，对预测任务给予不同的名称：输入变量与输出变量均为连续变量的预测问题称为回归问题；输出变量为有限个离散变量的预测问题称为分类问题；输入变量和输出变量均为变量序列的预测问题称为标注问题。

在监督学习中，假设输入变量X和输出变量Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数，或分布密度函数。假设P(X,Y)存在，在实际中P(X,Y)是未知的。训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布的。统计学习假设存在一定的统计规律，X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。

监督学习的目的在于学习一个由输入到输出的映射。这一映射由模型来表示。模型是由输入空间到输出空间的映射集合，这一集合就是假设空间，假设空间的确定意味着学习范围的确定。监督学习可以是概率模型或非概率模型，由条件概率分布P(X|Y)或决策函数Y=f(x)表示。对具体的输入进行相应的输出预测时，写作P(y|x)或y=f(x)。我们通过下图描述监督学习的学习和预测两个过程：

图 1 监督学习模型

统计学习三要素

统计学习方法＝模型＋策略＋算法。下面讨论监督学习中的三要素。非监督学习、强化学习也同样拥有这三要素，可以说统计学习方法就是确定具体的统计学习三要素。

模型

在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。例如，假设决策函数是输入变量的线性函数，那么模型的假设空间就是所有这些线性函数构成的函数集合。假设空间中的模型一般有无穷多个。假设空间用表示，假设空间可以定义为决策函数或条件概率的集合：

其中，X和Y是定义在输入空间和输出空间上的变量，这时通常是由一个参数向量决定的函数族：

参数向量θ取值于n维欧式空间Rⁿ，称为参数空间。

策略

有了模型的假设空间，统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。统计学习的目标在于从假设空间中选择最优模型。首先引入损失函数与风险函数的概念。损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。

监督学习问题是在假设空间中选取模型作为决策函数，对于给定的输入X，由(X)给出相应的输出Y。这个输出的预测值与真实值Y可能一致也可能不一致。用一个损失函数或代价函数来度量预测错误的程度。损失函数(X)是和Y的非负实值函数，记作L(Y,(X))。统计学习常用的损失函数有0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。损失函数值越小，模型就越好，由于模型的输入、输出(X,Y)是随机变量，遵守联合分布P(X,Y)，因此损失函数的期望是：

这是理论上模型(x)关于联合概率分布P(X,Y)的平均意义下的损失，称为风险函数或期望损失。学习的目标就是选择期望风险最小的模型。由于联合概率分布P(X,Y)是未知的，因此Rexp()不能直接计算。实际上，如果知道联合概率分布P(X,Y)就可以算出条件概率分布P(Y|X)，也就不需要学习了。给定训练数据集T={(x₁,y₁),(x₂,y₂),···,(x_n,y_n)}，模型(X)关于训练数据集的平均损失称为经验风险或者经验损失，记作Remp：

期望风险Rexp()是模型关于联合概率分布的期望损失，经验风险Remp()是模型关于训练样本集的平均损失。根据大数定律，当样本容量N趋于无穷时，经验风险趋于期望风险，所以可以用经验风险估计期望风险。但是，由于现实中训练样本集数目有限，所以有时经验风险估计期望风险并不理想，要对经验风险进行矫正。这就是经验学习的两个基本策略：经验风险最小化和结构风险最小化。

在假设空间、训练数据集以及损失函数确定的情况下，经验风险函数就可以确定。经验风险最小化策略认为经验风险最小的模型就是最优模型。由此，求解最优模型转化为求解经验风险最小化问题：

当样本容量足够大时，经验风险最小化能够保证很好的学习效果。比如，极大似然估计就是经验风险最小化的一个例子，当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。但是当样本容量较小时，会产生“过拟合”现象。过拟合现象简单的讲就是对已知数据预测的很好，但是对未知数据预测的很差的现象，在后续中在给大家详细介绍。

为了防止过拟合现象而提出了结构风险最小化(structural risk minimization,SRM)的概念。结构风险在经验风险的基础上增加了表示模型复杂度的正则化项或罚项。在假设空间、损失函数、训练数据集确定的情况下，结构风险的定义是：

其中J()为模型的复杂度，是定义在假设空间上的范函。模型越复杂，复杂度J()就越大；反之，模型越简单，复杂度J()就越小。λ≥0是系数，用以权衡经验风险和模型复杂度。结构风险需要经验风险和模型复杂度同时较小。结构风险小的模型往往对训练数据以及未知数据都有较好的预测。比如，贝叶斯估计中的最大后验概率估计就是结构风险最小化的一个例子。当模型是条件概率分布、损失函数的对数损失函数、模型的复杂度由模型的先验概率表示时，结构风险最小化就等价于最大后验概率估计。结构风险最小化策略认为结构风险最小的模型就是最优模型。所以求解最优模型就是求解最优化问题：

综上所述，监督学习问题就变成了经验风险或结构风险函数最优的问题，这时经验风险、结构风险函数就是最优化的目标函数。

算法

算法时指学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后考虑用什么算法求解最优模型。这时，统计学习方法归结为最优化问题，统计学习的算法就是求解最优模型的方法。如果最优化问题有显示的解析解，这个最优化问题比较简单。但通常情况下解析解不存在，这就需要用数值计算的方法求解。统计学习方法之间的不同主要来自其模型、策略、算法的不同。确定了模型、策略、算法，统计学习的方法也就确定了。这也就是将其称为统计学习三要素的原因。

模型评估与模型选择

训练误差与测试误差

统计学习的目的是使学习到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。不同的学习方法会给出不同的模型。当损失函数给定时，基于损失函数模型的训练误差和模型的测试误差就自然成为学习方法评估的标准。假设学习到的模型是Y=(X)，训练误差是模型关于训练数据集合的平均损失，其中N是训练样本容量。

测试误差是模型关于测试数据的平均损失，其中N'是测试样本容量。

训练误差的大小，对判断给定的问题是不是一个容易学习的问题是有意义的，但本质上不重要。测试误差反映了学习方法对未知数据集的预测能力，是学习中的重要概念。显然给定两种学习方法，测试误差小的方法具有更好的预测能力，是更有效的方法。通常将学习方法对未知数据的预测能力称为泛化能力。

过拟合与模型选择

当假设空间中含有不同复杂度的模型时，就要面临模型选择的问题。如果在选择的模型中存在“真”模型，那么所选择的模型应该逼近真模型。具体地讲，所选择的模型与真模型参数个数相同，所选择模型的参数向量与真模型参数向量相近。

如果一味的追求提高对训练数据的测试能力，所选择的模型的复杂度往往比真实的模型要高。这种现象称为过拟合。过拟合是指学习是选择的模型所包含的参数较多，以致于出现这一模型对已知数据预测的很好，但对未知数据预测很差的现象，可以说模型选择旨在避免过拟合并提高模型的预测能力。

下面以多项式函数拟合问题为例，说明过拟合与模型选择，这是一个回归问题。假设训练数据集为T={(x₁,y₁),(x₂,y₂),···,(x_n,y_n)}。多项式拟合任务是假设给定数据由M次多项式函数生成，选择最有可能产生这些数据的M次多项式函数。假设给定如下图所示的10个数据点，分别用0～9次多项式函数对数据进行拟合，多项式函数如下：

式中x是单变量输入，w₀，w₁，w_M是M+1个参数。解决这一问题首先确定模型的复杂度，即确定多项式的系数；然后在给定模型复杂度下，按照经验风险最小化策略求解参数w。损失函数为平方损失，则经验风险最小化为：

通过最小二乘法求的拟合多项式系数的唯一解。如下图给出了M=0，M=1，M=3及M＝9时多项式函数拟合情况。

如果M=0，多项式曲线是一个常数，拟合效果很差。如果M=1，多项式曲线是一条直线，数据拟合效果也很差。相反，如果M=9,多项式曲线通过每一个数据点，训练误差为0，从对给定训练数据拟合的角度来说，效果是最好的。但是训练数据本身存在噪声，这种拟合曲线对未知数据的预测能力往往并不是最好的，实际学习中并不可取，这时过拟合现象就会发生。这就是说模型选择时，不仅要考虑对已知数据的预测能力，而且还要考虑对未知数据的预测能力。当M=3时，多项式曲线对训练数据拟合效果足够好，模型也比较简单，是一个较好的选择。

多项式函数拟合过程中，随着多项式次数的增加训练误差会减小，直至趋向于0，但测试误差并不如此，它会随着多项式次数的增加先减小后增大。而最终的目的是使测试误差达到最小。这样在多项式函数拟合中，就要选择合适的多项式次数，以到达这一目的。

上图描述了测试误差和训练误差与模型复杂度之间的关系。当模型复杂度较大时，训练误差会逐渐减小并趋向于0，而测试误差会先减小，达到最小值后增大。当模型的复杂度过大时，过拟合现象就会发生。这样，在学习过程中就需要防止过拟合现象，进行最优的模型选择。正则化与交叉验证是最常用的两种模型选择的方法。

正则化与较差验证

模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现，在经验风险上加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂正则化值就越大。如正则化项可以是模型参数向量的范数。正则化一般有如下形式：

其中，第一项式经验风险，第二项式正则化项λ≥0为调整两者之间关系的系数。正则化可以取不同的形式，例如回归问题中损失函数为平方损失，正则化项可以是参数向量的L2范数：

第一项经验风险较小的模型可能较复杂(有多个非零参数)，这时第二项的模型复杂度会较大，正则化的作用是选择经验风险与模型复杂度同时较小的模型。正则化符合奥卡姆剃刀原理。该原理应用于模型选择时变为一下想法：在所有可能选择的模型中，能够很好的解释已知数据集并且十分简单才是最好的模型。从贝叶斯估计的角度看，正则化对应于模型的先验概率，可以假设复杂的模型有较小的先验概率，简单的模型有较大的先验概率。

另一种常用的模型选择的方法是交叉验证。如果给定的样本数据充足，进行模型选择的一种简单方法是随机将数据集切分为3份，分别为训练集、测试集、验证集。训练集用来训练模型，验证集用于模型的选择，而测试集用于对最终学习方法的评估。在学习不同复杂成都的模型中，选择对验证集有最小预测误差的模型。由于验证集有足够多的数据，用它对模型进行选择也是有效的。但实际中验证集并不充足，为了选择较好的模型，可以采用较差验证的方法，交叉验证的基本方法是重复地使用数据:把给定的数据进行切分，将切分的数据集组合为训练集和测试集，在此基础上反复地进行训练、测试以及模型选择。交叉验证有简单交叉验证、S折交叉验证、留一交叉验证等。

简单交叉验证将数据分为训练集（70%）和测试集（30%），然后用训练集在各种条件下训练模型，从而得到不同的模型，在测试集上评价各个模型的测试误差，选出测试误差最小的模型。S折交叉验证是应用最多的，该方法首先将集合划分为S个互不相交的大小相同的子集，然后利用S-1个子集的数据训练模型，利用余下的子集测试模型，将这一过程对可能的S种选择重复进行，最后选出S次评测中平均测试误差最小的模型。留一交叉验证是S折交叉验证的特例，其S＝N，N是给定数据集的容量，通常在数据缺乏的情况下使用。

泛化能力

学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力。现实中采用最多的是通过测试误差来评价学习方法的泛化能力。这种评价依赖于测试数据集，如果测试数据集有限，评价结果则不太可靠。统计学习理论试图从理论上对学习方法的泛化能力进行分析。首先给出泛化误差的定义，如果学到的模型是，那么用这个模型对未知数据预测的误差即为泛化误差：

泛化误差反映了学习方法的泛化能力，如果一种方法学习的模型比另一种方法学习的模型具有更小的泛化误差，那么这种方法就更有效，实际上泛化误差就是学习到的模型的期望风险。

学习方法的泛化能力往往是分析泛化误差的概论上界进行的，简称为泛化误差上界。具体来说就是通过比较两种方法的泛化误差上界大小来比较它们的优劣。泛化误差上界通常具有一下性质：是样本容量的函数，当样本容量增加时，泛化误差上界趋于0，它是假设空间容量的函数，假设空间容量大，模型就越难学，泛化误差上界就越大。下面给出一个简单的泛化误差上界的例子：二类分类问题的泛化误差上界。已知训练数据集T={(x₁,y₁),(x₂,y₂),···,(x_n,y_n)}，它是从联合概率分布P(X,Y)独立同分布产生的，X∈Rⁿ，Y∈｛-1，+1｝。假设空间是有限的函数集合，d是函数的个数。设是中选取的函数。损失函数是0-1损失函数，关于的期望风险和经验风险分别为：

对二类分类问题，当假设空间是有限个函数的集合时，对任意的一个∈，至少以概率1-δ，以下不等式成立：

训练误差Remp越小，泛化误差Rexp也越小，第二项式N的单调递增函数，当N趋于无穷大是，第二项趋于0；同时第二项也是d的单调递减函数，假设空间越小，泛化误差越小。其中，

证明要用到Hoeffding不等式，省略证明过程。

生成模型与判别模型

监督学习的目的就是学习一个模型，应用这一模型，对给定的输入预测相应的输出。这一模型的一般形式为决策函数或者条件概率分布。监督学习方法可以分为生成方法和判别方法，所学到的模型分别为生成模型和判别模型。生成方法由数据学习联合概率分布，然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型:

这样的方法之所以称之为生成方法，是因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有：朴素贝叶斯法和隐形马尔可夫模型。

判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型，即判别模型。判别方法关心的是对给定的输入X，应该预测什么样的输出Y。典型的判别模型包括：k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。

在监督学习中，生成方法和判别方法各有优缺点，适合于不同的条件下的学习问题。生成方法可以还原出联合概率分布P(X,Y)，而判别方法不能；生成方法的学习收敛速度更快，即当样本容量增加的时候，学习到的模型就可以更快地收敛于真实模型；当存在隐变量时，仍可以用生成方法学习，此时判别方法不能使用。判别方法直接学习的是条件概率分布P(Y|X)或决策函数f(X)，直接面对预测，往往学习准确率更高，由于直接学习P(Y|X)或f(X)，可以对数据进行各种程度上的抽象、定义特征并使用，因此可以简化学习问题。

回归问题

回归是监督学习中的一个重要问题。回归用于预测输入变量和输出变量之间的关系，特别是输入变量的值发生变化时，输出变量的值随之发生变化。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合，选择一条函数曲线使其很好的拟合已知数据且对未知数据的预测有较准确的预测。

回归问题分为学习和预测两个过程，首先给出训练数据集(x₁,y₁),(x₂,y₂),···,(x_n,y_n)，这里x是输入，y是输出。学习系统基于训练数据构建模型，即函数Y=(X)，对新输入的x_n+1，预测系统根据学习的模型确定相应的输出y_n+1。回归问题按照输入变量的个数，分为一元回归和多元回归；按照输入变量和输出变量之间的关系，分为线性回归和非线性回归。回归学习最常用的损失函数是平方损失函数，在此情况下回归问题可以由著名的最小二乘法求解。

许多领域的任务都可以形式化为回归问题，比如，回归问题可以用于商务领域，作为市场趋势预测、产品质量管理、客户满意度调查、投资风险分析的工具。简单介绍股价预测问题，假设知道公司在过去不同时刻市场上的股票价格，以及在各个时间点之前可能影响该公司股价的信息（如一周营业额、利润）。目标是从过去的数据中学习一个模型，使它可以基于当前的信息预测该公司下一个时间点的股票价格，可以将这个问题作为回归问题解决。具体地，将股票的价格信息视为自变量，而将股票的价格视为因变量。将过去的数据视为训练数据，就可以学习一个回归模型，并对未来的股价进行预测，可以看出这是一个困难的问题，因为股价的影响因素较多，我们未必能准确的判断哪些信息有用并能得到这些信息。

分类问题

分类是监督学习的一个核心问题。在监督学习中，当输出变量Y有有限个离散值时，预测问题便成为分类问题。这时，输入变量可以时离散的也可以是连续的，监督学习从数据中学习一个分类模型或分类决策函数，称为分类器。分类器对新的数据进行输出的预测，称为分类。可能的输出称为类，分类的类别有多个时，称为多类分类问题。如下主要讨论二类分类问题。

分类问题包括学习和分类两个过程。在学习过程中，根据已知的训练数据集利用有效的学习方法学习一个分类器；在分类过程中，利用学习的分类器对新输入的数据进行分类。分类问题可描述如图1所示，图中(x₁,y₁),(x₂,y₂),···,(x_n,y_n)是训练数据集，学习系统由训练数据学习一个分类器P(Y|X)或f(X)；分类系统学习到的分类器P(Y|X)或f(X)对于新的输入实例x_n+1进行分类，即预测其输出的类标记y_n+1。

评价分类器性能的指标一般是分类准确率，其定义是：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上的准确率。对于二类分类问题常用的评价指标是精确率和召回率。通常关注的类称为正类，其它类称为负类，分类器在测试数据集上的预测或正确或不正确。4种情况出现的总数分别记作：

TP－将正类预测为正类数

FN－将正类预测为负类数

FP－将负类预测为正类数

TN－将负类预测为负类数

精确率定义为：

召回率定义为：

此外，还有F₁值，是精确率和召回率的调和均值，即

精确率和召回率都高时，F₁值也会高。

许多统计学方法可以用于分类，包括k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯蒂回归模型、支持向量机、提升方法、贝叶斯网络、神经网络等。分类在于根据特性将数据“分门别类”，所以在许多领域都有广泛的应用。例如在银行业务中，可以构建一个客户分类模型，对客户按照贷款风险的大小进行分类；在网络安全领域可以利用日志数据的分类对非法入侵进行检测；在图像处理中，分类可以用来检测图像中是否有人脸出现：在手写识别中，分类可以用于识别手写的数字；在互联网搜索中，网页的分类可以帮助网页的抓取、索引和排序。

举一个文本分类的例子。这里的文本可以是新闻报道、网页、电子邮件、学术论文等。类别往往是关于文本内容的，例如政治、经济、体育等；也有关于文本特点的，正面意见、反面意见；还可以根据应用确定，如垃圾邮件、非垃圾邮件。文本分类是根据文本的特征将其划分到已有的类中，输入是文本的特征向量，输出是文本的类型。通常把文本中的单词定义为特征，每个单词对应一个特征。单词的特征可以是二值的，如果单词在文本中出现则取值为1，否则为0；也可以是多值的，表示单词在文本中出现的频率。直观地，如果“股票”、“银行”、“货币”这些单词出现很多，这个文本可能属于经济类，如果“网球”、“比赛”、“运动员”这些词频繁出现，这个文本可能属于体育类。

标注问题

标注问题也是一类监督学习问题。可以认为标注问题是分类问题的一个推广。标注问题是更复杂的结构预测问题的简单形式。标注问题的输入是一个观测序列，输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型，使它能够对观测序列给出标记序列作为预测，可能的标记序列是有限的，但其组合所成的标记序列的格式是依序列长度呈指数级增长的。

标注问题分为学习和标注两个过程。首先给定训练数据集T={(x₁,y₁),(x₂,y₂),···,(x_n,y_n)}，这里，是输入观测序列，是输出观测序列，对不同的样本可以有不同的值。学习系统基于训练数据集构建一个模型，表示为条件概率分布：

这里的每个X表示所有可能的观测，每个Y表示所有可能的标记。标注系统按照学习得到的条件概率分布模型，对新的输入序列找到相应的输出标记序列。具体地，对一个观测序列，找到使条件概率P最大的标记序列。

评价标注模型的指标与评价分类模型的指标一样，常用的有标注准确率、精确率、召回率。标注常用的统计学习方法有：隐形马尔可夫模型、条件随机场。标注问题在信息抽取、自然语言处理等领域被广泛应用。例如自然语言处理中的词性标注就是典型的标注问题：给定一个单词组成的句子，对这个句子中每个单词进行词性标注，即对每个单词序列预测其对应的词性标记序列。

总结

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。统计学习包括监督学习、非监督学习、半监督学习和强化学习。
统计学习三要素－模型、策略、算法。
监督学习包括：从给定有限的训练数据出发，假设数据是独立同分布的，而且假设模型属于某个假设空间，应用某一评价准则，从假设空间中选择最优的模型，使它对已给定训练数据及其未知数据在给定评价标准意义下有最准确的预测。
统计学习中，进行模型选择或者说提高学习的泛化能力是一个重要的问题，如果只考虑减少训练误差，就可能产生过拟合现象。模型选择的方法有正则化和交叉验证。
回归问题、分类问题、标注问题都是监督学习的重要问题。本书介绍的统计学习方法包括感知机、k近邻、朴素贝叶斯、决策树、逻辑斯蒂回归、最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型、条件随机场。这些方法是主要的分类、标注和回归方法，他们又可以归类为生成方法与判别方法。

posted @ 2017-11-10 08:41 best.lei 阅读(1035) 评论(0) 收藏举报

刷新页面返回顶部

best.lei

渐行渐远

统计学习方法概论

统计学习方法概论

相关概念

监督学习

统计学习三要素

模型

策略

算法

模型评估与模型选择

训练误差与测试误差

过拟合与模型选择

正则化与较差验证

泛化能力

生成模型与判别模型

回归问题

分类问题

标注问题

总结