统计学习概论

第一章 统计学习及监督学习概论


1.1 统计学习

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

1.2 统计学习的分类

1.2.1 基本分类

  • 监督学习

监督学习是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,模型对给定的输入产生相应的输出。

通常来说,会先将输入空间映射到特征空间,再建立从特征空间到输出空间的模型。

监督学习将实际的输入输出看作是定义在输入(特征)空间和输出空间上的随机变量的取值。输入与输出对又称为样本。

输入变量与输出变量均为连续变量的预测问题称为回归问题,输出变量为有限个离散变量的预测问题称为分类问题,输入变量与输出变量均为变量序列的问题称为标注问题。

监督学习始终假设输入变量 X 和输出变量 Y 服从某个联合概率分布 F(X,Y)。P(X,Y)表示它们的联合分布律或者联合分布密度。

监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X)表示。

  • 无监督学习

无监督学习是指从无标注数据中学习预测模型的机器学习问题。

  • 强化学习

强化学习问题是指智能系统在于环境的连续互动中学习最优行为策略的机器学习问题。

1.2.2 按模型分类

  • 概率模型和非概率模型

监督学习中,概率模型取条件概率分布形式 P(y|x),非概率模型取条件函数形式y=f(x)。

条件概率分布P(y|x)和函数y=f(x)可以相互转化。具体来说,条件概率分布最大化后得到函数,函数归一化后得到条件概率分布。

  • 线性模型和非线性模型
  • 参数化模型和非参数化模型

1.2.3 按算法分类

在线学习和批量学习

1.2.4 按技巧分类

  • 贝叶斯学习

基本思想是计算给定条件下模型的条件概率,即后验概率,并应用这个原理进行模型的估计。

假设随机变量D表示数据,随机变量θ表示模型的未知参数。那么可以计算后验概率

\[P(\theta | D)=\frac{P(\theta)P(D|\theta)}{P(D)} \]

如果需要得到模型,可以选择后验概率最大的模型。

  • 核方法

1.3 统计学习方法三要素

构建一个统计学习方法就是确定具体的统计学习三要素。

1.3.1 模型

首先考虑要建立什么样的模型。模型的假设空间包含所有可能的条件概率分布或决策函数。例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些函数构成的函数集合。

1.3.2 策略

有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。

损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

  • 风险函数和损失函数

用一个损失函数或者代价函数来度量预测错误的程度。

常用的损失函数有以下几种:

  1. 0-1 损失函数

\[L(Y,f(X))= \begin{cases} 1, Y\neq f(X)\\ 0, Y=f(X) \end{cases} \]

  1. 平方损失函数

\[L(Y,f(X))=(Y-f(X))^{2} \]

  1. 绝对损失函数

\[L(Y,f(X))=|Y-f(X)| \]

  1. 对数损失函数

\[L(Y,P(Y|X))=-logP(Y|X) \]

监督学习假设输入变量和输出变量服从某个联合分布函数F(X,Y),所以损失函数的期望是:

\[\begin{aligned} R_{exp}(f)=E_{P}[L(Y,f(X))] \\ =\int_{(X,Y)}L(Y,f(X))P(X,Y)dxdy \end{aligned} \]

称此期望为风险函数,或期望损失。

不过实际上,联合分布F(X,Y)是未知的。

给定一个数据集

\[T=\{(x_{1},y_{1}),...,(x_{n},y_{n})\} \]

模型f(X)关于训练数据集的平均损失函数称为经验风险(empirical risk)或者经验损失,记作\(R_{emp}\)

\[R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i})) \]

期望风险\(R_{exp}(f)\)是模型关于联合分布函数的期望损失,经验风险\(R_{emp}(f)\)是模型关于训练样本集的平均损失。

根据大数定理,当样本容量N趋近于无穷时,样本均值依概率趋近于总体期望。实际上样本数量有限,甚至很小。所以需要对经验风险进行纠正。两个基本策略:经验风险最小化和结构风险最小化。

  • 经验风险最小化与结构风险最小化

经验风险最小化策略认为经验风险最小的模型是最优的模型。所以经验风险最小化就是求解最优化问题:

\[min\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i})) \]

当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。

结构风险最小化等价于正则化。结构风险是在经验风险上假声表示模型复杂度的正则化项或罚项。

\[R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda J(f) \]

其中J(f)表示模型的复杂度。模型复杂度越高表示结构风险越大。比如多项式函数拟合时,最高项的次数越高则过拟合风险越高,此时模型复杂度越高,结构风险也就越大。

贝叶斯估计中的最大厚颜概率估计就是结构风险最小化的例子。当模型似乎条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。

1.3.3 算法

算法是指求解最优模型的所采用的方法。

习题

1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为 0 与 1 的随机变量上的概率分布。假设观测到伯努利模型 n 次独立的数据生成结果,其中 k 次的结果为 1,这时可以用极大似然估计或者贝叶斯估计来估计结果为 1 的概率。

解答

伯努利模型中,每次试验的结果只有 0 或者 1,设单次试验结果为 1 的概率为 p。独立重复地进行该试验 n 次被称为 n 重伯努利试验。 n 重伯努利试验满足二项分布,即 n 重伯努利试验中结果为 1 的次数等于 k 的先验概率:

\[P(X=k)=C_{n}^{k}p^{k}(1-p)^{n-k} \]

现在已知 n 次试验中 1 结果出现了 k 次。分别对 p 进行极大似然估计和贝叶斯估计。

极大似然估计

参数 p 的似然函数

\[L(p)=P(X=k)=C_{n}^{k}p^{k}(1-p)^{n-k} \]

若:

\[L(k ;\hat{p})=max_{0\leq p \leq 1}L(k;p) \]

\(\hat{p}\) 为 p 的极大似然估计。

故问题变为求: 当 \(p\) 为何值时,\(L(p)\) 取最大值。

对数似然方程

\[ln(L(p))=lnC+klnp+(n-k)ln(1-p) \]

\[\frac{d}{dp}ln(L(p))=0 \]

时,求得 p 的极大似然估计 \(\hat{p}=\frac{k}{n}\)

统计学习三要素中,首要问题是选择什么模型。n 重伯努利试验中结果 1 出现的次数 k 满足二项分布,单次试验结果为 1 的概率满足 0-1 分布。

其次是选择什么样的策略。极大似然估计中,选择参数的准则是最大化先验概率。即选择参数 \(\hat{p}\),使得 n 次伯努利试验中结果为 1 的次数等于 k 的概率为最大。

最后是算法。本题中采取的算法是微分学中求最大值的方法。

贝叶斯估计

在 n 重伯努利试验中,结果为 1 的次数 K 等于 k 时,单次试验结果为 1 的概率\(\theta = p\) 的后验概率

\[P(\theta = p|K=k)=\frac{P(\theta = p)P(K=k|\theta = p)}{P(K=k)} \]

其中 \(P(\theta = p)\) 表示事件发生的概率 \(\theta=p\) 的先验概率。这里没有给出事件的先验概率,所以我们假设 参数 \(\theta\) 服从参数为 a 和 b 的 \(\beta\) 分布。即

\[P(\theta = p)=\frac{p^{a- 1}(1-p)^{b-1}}{C} \]

\(P(K=k|\theta = p)\)表示参数 \(\theta\) 的似然函数

\[P(K=k|\theta = p)=C_{n}^{k}p^{k}(1-p)^{n-k} \]

分母\(P(K=k)\)的值是固定值。

故最大化后验概率就变为最大化:

\[L(p)=Const*p^{a-1}(1-p)^{b-1}p^{k}(1-p)^{n-k} \]

所以参数\(\theta\)的伯努利估计为\(\hat{p}=\frac{k+(a-1)}{n+(a-1)+(b-1)}\)

a=1,b=1时,伯努利估计与极大似然估计的结果相同。a=1,b=1时,\(P(\theta = p)\)为常数,即满足 \(\theta\) 满足参数为(0,1)的均匀分布。

可以证明,假设参数 θ 满足均匀分布,那么对参数 θ 的贝叶斯估计就等于对它的最大似然估计。

在贝叶斯估计中,我们认为:

  • 单次试验结果为 1 的概率满足 0-1 分布;
  • n 重伯努利试验结果为 1 的次数等于 k 的概率满足二项分布;
  • 参数 θ 本身服从 β 分布

计算策略:我们选择最大化后验概率。

算法也是采用微分学求最大值的方法。

1.2 通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

经验风险最小化就是求解最优化问题:

\[min\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i})) \]

假设模型为条件概率分布,即:

\[f(x_{i})=max_{y\in Y}f(y|x_{i};\theta) \]

损失函数

\[L(y_{i},f(x_{i}))=-log(f(y|x_{i};\theta)) \]

\(y_{i}=max_{y\in Y}f(y|x_{i};\theta)\)时得到最优化问题的解。

也就是说,需要求解参数θ,使得当输入为\(x_{i}\)时,结果 \(y = y_{i}\) 的概率为最大。

这正是极大似然估计。

posted @ 2019-07-22 20:58  HZQTS  阅读(774)  评论(0编辑  收藏  举报