导论

导论

[TOC] 1 曲线拟合


1 使用多项式函数拟合数据:
\(y(x,\mathbf{w})=w_0+w_1x+w_2x^2+...+w_Mx_M=\sum_{j=0}^Mw_jx^j,\)
该式是未知参数的线性函数,平方误差函数为:
\(E(\mathbf{w})=\frac{1}{2}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2.\)
2 需要选取合适的$M$值确定目标函数,不同的$M$值对应不同的模型,$M$的选择与模型选择模型比较相关。较大的$M$值容易产生过拟合问题,较小的$M$值则欠缺表达能力,适当选取的$M$值可给出最佳的泛化表现。

3 固定模型复杂度,过拟合问题将随着数据集规模的增大得到缓解。其同义表述为:大规模数据可支撑更加复杂的模型。

实际上当数据规模无限时,过拟合问题将不再存在。

一般情况下数据点规模应该是模型自由参数的若干倍,尽管参数并不总是模型复杂度的最佳度量。

4 最小方差是最大似然方法的特例,过拟合是最大似然的通性。我们可以采用贝叶斯方法避免过拟合,实际上,贝叶斯模型根据数据集适应性地调节有效参数数目。

5 正则化方法通过在误差函数中增加系数惩罚项解决过拟合问题。一个修改后的误差函数例子:
\(\tilde{E}(\mathbf{w})=\frac{1}{2}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2+\frac{\lambda}{2}\lVert\mathbf{w}\rVert^2,\)
其中$\lambda$控制模型复杂度或正则项的权重。

6 模型复杂度($M$或$\lambda$的选取)可在验证集或留出集确定,但并非必须。

2 概率论


1 模式识别需要引入不确定性,不确定性来自测量误差和数据集的有限性。利用概率论和决策论,可在已知(有瑕疵的)信息下给出最佳预测。

2 将连续随机变量$x$映射到$y$,满足$x=g(y)$,给定$x$的概率密度为$f_x(x)$, $y$的概率密度为$f_y(y)$。由于:
\(P_{[x,x+\delta x)}(x)=f_x(x)\delta x=P_{[y,y+\delta y)}(y)=f_y(y)\delta y,\)
因此,
\(f_y(y)=f_x(x)\lvert\frac{\delta x}{\delta y}\rvert=f_x(g(y))|g'(y)|.\)

3 对于概率有两种解释,一种是作为重复随机事件的频率期望(古典解释),另一种则表示不确定性(贝叶斯观点)。

  1. 贝叶斯概率中先验概率的引入是具有争议的部分。
  2. 概率论可以看做是包含不确定性的布尔逻辑扩展。

最常见的频率估计方法是最大似估计。

4 对于贝叶斯方法的主要批评之一是先验概率的选取往往只是为了数学运算上的方便而不是符合所谓的先验信念。也有人说先验概率的选取给贝叶斯方法的推断带来了不可避免的主观性。无信息先验 的动机之一是降低对先验的依赖,然而这将为不同模型的比较带来困难。

先验概率的错误选择将产生不合理的基于贝叶斯方法的推断。

5 尽管贝叶斯框架起源于18世纪,由于积分(求和)的困难,其应用范围受到很大的限制。最近,计算机性能的提升以及诸如马尔科夫链蒙特卡洛等采样方法的发展为贝叶斯方法的实际应用打开了一扇新的大门。

6 给定均值和方差,数据$\mathbf$的似然概率为:
\(p(\mathbf{x}|\mu,\sigma^2)=\prod_{n=1}^N{\mathcal{N}(x_n|\mu,\sigma^2)},\)
对数似然概率为:
\(\ln p(\mathbf{x}|\mu,\sigma^2)=-\frac{1}{2\sigma^2}\sum_{n=1}^N(x_n-\mu)^2-\frac{N}{2}\ln\sigma^2-\frac{N}{2}\ln(2\pi),\)
关于均值$\mu$最大化上式,求得均值的最大似然估计$\mu_{\text}$为:
\(\mu_\text{ML}=\frac{1}{N}\sum_{n=1}^Nx_n,\)
这也是所谓的样本均值,关于方差$\sigma^2$最大化上式,求得方差的最大似然估计$\sigma_\text^2$为:
\(\sigma_\text{ML}^2=\frac{1}{N}\sum_{n=1}^N(x_n-\mu_\text{ML})^2,\)
也称样本方差
$\mu_\text\(和\)\sigma_\text^2$作为数据集的值$x_1,...,x_N$的函数(即统计量),其本身也是随机变量,它们的期望分别为:
\(\begin{aligned}\mathbb{E}[\mu_\text{ML}]&=\mu,\\\mathbb{E}[\sigma_\text{ML}^2]&=\left(\frac{N-1}{N}\right)\sigma^2.\end{aligned}\)
显然最大似然方法对方差的估计是有偏的,当数据规模足够大时,该偏差会趋于零。

7 重新考虑曲线拟合问题,并使用概率分布描述对目标值的不确定性,具体地,假设对于给定值$x$,其目标值$t$呈高斯分布,精度为$\beta$:
\(p(t|x,\mathbf{w},\beta)=\mathcal{N}(t|y(x,\mathbf{w}),\beta^{-1}).\)
训练数据为${\mathbf{x,t}}\(,给定参数\)\mathbf\(和\)\beta$以及$\mathbf\(,目标值\)\mathbf$的似然函数为:
\(p(\mathbf{t}|\mathbf{x,w},\beta)=\prod_{n=1}^N\mathcal{N}(t_n|y(x_n,\mathbf{w}),\beta^{-1}),\)
其对数似然函数为:
\(\ln p(\mathbf{t}|\mathbf{x,w},\beta)=-\frac{\beta}{2}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2+\frac{N}{2}\ln\beta-\frac{N}{2}\ln(2\pi).\)
关于精度$\beta$最大化上式,得到精度的最大似然估计$\beta_\text$满足:
\(\frac{1}{\beta_\text{ML}}=\frac{1}{N}\sum_{n=1}^N\{y(x_n,\mathbf{w}_\text{ML})-t_n\}^2.\)

从而,给定输入$x$,模型给出输出$t$的预测分布为:
\(p(t|x;\mathbf{w}_\text{ML},\beta_\text{ML})=\mathcal{N}(t|y(x,\mathbf{w}_\text{ML}),\beta_\text{ML}^{-1}).\)
现在引入贝叶斯方法,假定$\mathbf$服从先验分布:
\(p(\mathbf{w}|\alpha)=\mathcal{N}(\mathbf{w}|\mathbf{0},\alpha^{-1}\mathbf{I})=\left(\frac{\alpha}{2\pi}\right)^{(M+1)/2}\exp\left\{-\frac{\alpha}{2}\mathbf{w}^\text{T}\mathbf{w}\right\},\)
其中$M$表示多项式的阶,$M+1$为$\mathbf$的长度(维数)。后验分布满足:
\(p(\mathbf{w|x,t},\alpha,\beta)\propto p(\mathbf{t|x,w},\beta)p(\mathbf{w}|\alpha),\)
上式的最大化等同下式的最小化:
\(\frac{\beta}{2}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2+\frac{\alpha}{2}\mathbf{w}^\text{T}\mathbf{w},\)
显然这等同最小化正则化的均方误差函数,其中正则化参数为$\lambda=\alpha/\beta.$

3 模型选择


1 在实际应用中,为了决定泛化能力最强的模型复杂度,从训练数据中分离一部分作为验证集,并在验证集上确定模型超参数。为了对模型的预测能力给出一个低噪的估计,验证集的规模不能太小。在某些训练数据有限的情况下,可使用交叉验证留出训练数据的$1/S$作为验证数据,并对模型在$S$种数据划分下的验证误差进行平均。

2 有时我们希望只依赖训练数据确定模型的泛化能力。**赤池信息量标准(Akaike)**选取使下式最大的模型:
\(\ln p(\mathcal{D}|\mathbf{w}_\text{ML})-M,\)
其中$M$是模型可调参数的数目。

4 维数灾难


1 维数灾难意味着为了从训练数据中对新的输入作出有统计意义的预测,需要的数据规模与输入的维数成指数关系。

2 尽管如此,我们仍可在高维空间中处理实际问题。实际问题中的数据一般兼具"有效维度"较低和平滑的特性。从而我们可以利用降维或局部插值的方法处理原数据。

5 决策论


<skip>

6 信息论


<skip>

posted @ 2018-06-29 20:16  astoninfer  阅读(256)  评论(0编辑  收藏  举报