概论

概率

统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称为统计学习方法的三要素,简称未模型、策略和算法。实现统计学习方法的步骤如下:
1)得到一个有限的训练数据集合
2)确定包含所有可能的模型的假设空间,即学习模型的集合
3)确定模型选择的准则,即学习的策略
4)实现求解最优模型的算法,即学习的算法;
5)通过学习方法选择最优模型
6)利用学习的最优模型对新数据进行预测或分析。

监督学习

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),训练数据和测试数据被看做是依联合概率分布P(X,Y)独立同分布产生的。

监督学习的目的在于学习一个由输入到输出的映射。监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数\(Y=f(X)\)表示,在预测过程中,预测系统对于给定的测试样本集中的输入\(x_{N+1}\),由模型\(y_{N+1}=argmax \hat{P}(y_{N+1}|x_{N+1})或y_{N+1}=\hat{f}(x_{N+1})给出相应的输出y_{n+1}\)

统计学习三要素

方法=模型+策略+算法

模型:
假设空间定义为条件概率的集合

\[F={P|P(Y|X)} \]

其中,X和Y是定义在输入空间,输出空间上的随机变量。这时\(F\)通常是由一个参数向量决定的条件概率分布族:

\[F = {P|P_{\Theta}(Y|X),\Theta \in R^n} \]

参数向量\(\Theta\)取决于n维欧式空间\(R^n\),也称为参数空间。

策略:
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
损失函数是f(X)和Y的非负实值函数,记作L(Y,f(X)),损失函数值越小,模型就越好,由于模型的输入,输出是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是

\[R_{exp}(f)=E_p[L(Y,f(X))]=\int_{\chi X y}L(y,f(x))P(x,y)dxdy \]

这是理论上模型\(f(X)\)关于联合分布\(P(X,Y)\)的平均意义下的损失,称为风险函数或期望损失。学习的目标就是选择期望风险最小的模型。
给定一个训练集\(T={(x_1,y_1),(x_2,y_2),\cdots,(x_N,x_N)}\),模型f(X)关于训练数据集的平均损失称为经验风险,记为\(R_{emp}\):

\[R_{emp}(f)=\frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i)) \]

期望风险\(R_{exp}(f)是模型关于联合分布的期望损失,经验风险R_{emp}(f)是模型关于训练样本集的平均损失\),由于数据量有限,用经验风险估计期望风险常常并不理想,要对经验风险进行一定矫正。这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化
根据经验风险最小化求最优模型就是求解最优化问题:\(min \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i))\),但是当样本容量很小时,经常会产生过拟合现象。
结构风险最小化是为了防止过拟合而提出来的策略。其策略是添加一正则项。定义为:

\[R_{srm}(f)=\frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))+\lambda J(f) \]

其中\(J(f)\)为模型的复杂度,模型越复杂,复杂度\(J(f)\)就越大。
极大似然估计:已知一组x和y,在一个函数族F中,找出一个函数f,使得y最有可能是x经过f映射得到的
当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计

算法
算法是指用什么样的计算方法求解最优模型

正则化的作用是选择经验风险与模型复杂度同时较小的模型
在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型。从贝叶斯估计的角度来看,正则化项对应于模型的先验概率,可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率。

如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集切分成三部分,分别为训练集、验证集、和测试集。训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法的评估,在学习到的不同复杂度的模型中,选择对验证集有最小预测误差的模型。

泛化能力

泛化误差
如果学到的模型是\(\hat{f}\),那么用这个模型对未知数据预测的误差即为泛化误差:

\[R_{exp}(\hat{f})=E_p[L(Y,\hat{f}(X))]=\int_{\chi X y}L(y,\hat{f}(x))P(x,y)dxdy \]

生成模型与判别模型

监督学习方法可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型
生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:

\[P(Y|X) = \frac{P(X,Y)}{P(X)} \]

生成模型表示了给定输入X产生输出Y的生成关系。
判别方法由数据直接学习决策函数\(f(X)\)或者条件概率分布\(P(Y|X)\)作为预测的模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y
生成方法特点:生成方法可以还原出联合概率分布P(X,Y)
\(判别方法特点:判别方法直接学习的是条件概率P(X|Y)或决策函数f(X),往往学习的准确率更高,由于直接学习P(Y|X)或f(X)\),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

posted @ 2017-12-18 17:10  blog_hfg  阅读(181)  评论(0)    收藏  举报