统计学习方法及监督学习概论

本篇文章只是一个开始。

文章记录的内容是参加DataWhale的组队学习统计学习方法(第二版)习题解答过程中的笔记与查缺补漏!
参考解答地址统计学习方法概论

1. 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型\(n\)次独立的数据生成结果,其中\(k\)次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率

解答思路

  1. 写出伯努利模型;
  2. 写出伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素;
  3. 根据伯努利模型的极大似然估计,估计结果为1的概率;
  4. 根据伯努利模型的贝叶斯估计,估计结果为1的概率。

具体的求解过程就不赘述了,接下来介绍相关的一些知识点。

统计学习方法三要素

  • 模型要学习什么样的模型。在监督学习中,模型是所有要学习的条件概率 ( \(P(Y|X)\) ) 或决策函数 ( \(f(X)\) )。模型的假设空间:\(\mathcal{F} = \{ f | Y = f_\theta(X),\ \theta \in \mathbb{R}^n \}\)\(\mathcal{F} = \{ P | P_\theta(Y|X),\ \theta \in \mathbb{R}^n \}\),其中 \(\theta\)是参数。通常,模型指的是一种算法(不是三要素中的算法),但是算法可能有参数,我们需要通过数据来学习这个参数,不同的参数表示了这种模型的不同实例,例如伯努利模型中的 \(p\) 取不同值时就是不同的模型。或许可以这样说:模型的参数空间就是假设空间。
  • 策略:知道了是什么样的模型后,我们就有了假设空间(例如知道了伯努利模型,我们就知道假设空间是由 \(p \in [0, 1]\) 组成的空间)。但是一般来说假设空间太大了,我们需要依靠一个准则来选择其中最优的参数,这里的准则就是策略,类似于损失函数。策略是我们选择模型的准则,既然是选择,那肯定要比较,既然要比较那肯定是要计算值的大小的,即某个具体策略的值,例如选择使交叉熵损失最小的那个参数作为最优的参数(模型)。
  • 算法:知道了怎么选择模型后,还需要知道怎么求解模型。有时候在算法的基础上就可以求解模型,如深度学习中的损失函数,通过梯度下降来求解模型,此时梯度下降就是算法;SVM中要求间隔最小,学习问题成了最优化问题,则算法就成了求解最优化问题的算法。

期望风险、经验风险和结构风险

对于模型 \(f(X)\) ,如果我们知道了数据的联合分布 \(P(X, Y)\) ,那么我们就可以得到模型的期望风险(expected risk):

\[R_{exp} = E_P[L(Y, f(X))] = \int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) dxdy \]

但是,很显然,联合分布 \(P(X, Y)\) 我们是无法得知的(如果我们能够拿到总体数据,就可以计算这个联合分布,但是实际中我们得到的数据只是总体数据的一个采样,是一个样本),因此期望风险一般来说是计算不了的。
模型 \(f(X)\) 在训练集上的平均损失称为经验风险(emperical risk)或经验损失:

\[R_{emp} = \frac{1}{N} \sum_{i=1}^N L(y_i, f(x_i)) \]

通常,我们的策略经验风险最小化。还有一种风险是结构风险(structural risk):

\[R_{srm} = \frac{1}{N} \sum_{i=1}^N L(y_i, f(x_i)) + \lambda J(f) \]

其中 \(J(f)\) 是模型的复杂度,也就是正则化项

贝叶斯学习中的几种概率

假设有数据集 \(D\),需要估计的参数 \(\theta\)

  • 先验概率:\(P(\theta)\),不借助数据时我们对参数的一个估计
  • 后验概率:\(P(\theta | D) = \frac{P(\theta) P(D | \theta)}{\int P(\theta) P(D | \theta) d\theta}\),观察到数据后对参数的一个估计
  • 似然函数:\(P(D | \theta)\),在给定 \(\theta\) 时,数据的概率

2. 通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计

解答思路:

  1. 根据经验风险最小化定义,写出目标函数;
  2. 根据对数损失函数,对目标函数进行整理;
  3. 根据似然函数定义和极大似然估计的一般步骤(计算时需要取对数),可得到结论。

注意题目中说明损失函数是对数损失函数:\(L(Y,\ P(Y|X)) = -log\ P(Y | X)\)

posted @ 2021-12-13 21:46  Milkha  阅读(184)  评论(0编辑  收藏  举报