PRML-3.1 回归的线性模型-线性基函数模型

记号说明

$1.输入集\textbf{X}=\{x_1,...,x_N\}是N个观测值,某一个观测\{x_n\},其中n=1,2,...,N,通俗讲就是$x_train$,或者文中称为\mathcal{D}$
$2.观测对应的目标值\textbf{t}=\{t_1,...,t_n\},通俗讲就是$y_train
$3.模型函数 t=y(x),输入变量x，输出对应的t的预测$
$4.预测分布p(t|x)$
$5.线性模型y(x,w)=w_0+w_1x_1+...+w_Dx_D=w_0+\sum\limits_{j=1}^{M-1}w_j\phi(x)=w^T\phi(x)$
$6.M 多项式拟合的最高阶数$
$7.\phi_j(x)被称为基函数$（basis function）$j=0,...,M-1$
$8.w_0被称为偏置参数$ bias parameter
$9.w = (w_0,...,w_{M-1})^T$
$10.\phi(x) = (\phi_0,...,\phi_{M-1})^T $
$11.\phi_j(x)=x^j,多项式基函数$
$12.\beta,先验为高斯分布的精度,p(t|x,w,\beta) = \mathcal{N}(t|y(x,w), \beta^{-1})$
$13.\boldsymbol{\Phi}=\left(\begin{array}{cccc} \phi_{0}\left(\boldsymbol{x}_{1}\right) & \phi_{1}\left(\boldsymbol{x}_{1}\right) & \cdots & \phi_{M-1}\left(\boldsymbol{x}_{1}\right) \\ \phi_{0}\left(\boldsymbol{x}_{2}\right) & \phi_{1}\left(\boldsymbol{x}_{2}\right) & \cdots & \phi_{M-1}\left(\boldsymbol{x}_{2}\right) \\ \vdots & \vdots & \ddots & \vdots \\ \phi_{0}\left(\boldsymbol{x}_{N}\right) & \phi_{1}\left(\boldsymbol{x}_{N}\right) & \cdots & \phi_{M-1}\left(\boldsymbol{x}_{N}\right) \end{array}\right)_{N\times M}$
$14. \Phi^+ \equiv (\Phi^T\Phi)^{-1}\Phi^T,$摩尔彭罗斯伪逆（Moore-Penrose pseudo-inverse）
$15.E_{D}(\boldsymbol{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{t_{n}-w_{0}-\sum_{j=1}^{M-1} w_{j} \phi_{j}\left(\boldsymbol{x}_{n}\right)\right\}^{2}= \frac{1}{2}\sum\limits_{n=1}^N\{t_n-w^T\phi(x_n)\}^2,误差函数$
$15.E_W(w) = \frac{1}{2}w^Tw ,正则化项$

3.1.常用的基函数

多项式基函数,$\phi_j(x)=x^j$
高斯基函数,$\phi_j(x)=exp\{-\frac{(x-\mu_j)^2}{2s^2}\}$
sigmod基函数,$\phi_j(x)=\sigma(\frac{x-\mu_j}{s})$
其中$\sigma(a)$是logistic sigmod函数,$\sigma(a)=\frac{1}{1+exp(-a)}$
傅里叶基函数

不同基函数的sin函数拟合

点击查看代码


# 不同基函数拟合
def sinusoidal(x):
    return np.sin(2 * np.pi * x)

x_train, y_train = create_toy_data(sinusoidal, 10, 0.25)
x_test = np.linspace(0, 1, 100)
y_test = sinusoidal(x_test)

# Pick one of the three features below
#feature = PolynomialFeature(8)
#feature = GaussianFeature(np.linspace(0, 1, 8), 0.1)
feature = SigmoidalFeature(np.linspace(0, 1, 8), 10)

X_train = feature.transform(x_train)
X_test = feature.transform(x_test)
model = LinearRegression()
model.fit(X_train, y_train)
y, y_std = model.predict(X_test, return_std=True)

plt.scatter(x_train, y_train, facecolor="none", edgecolor="b", s=50, label="training data")
plt.plot(x_test, y_test, label="$\sin(2\pi x)$")
plt.plot(x_test, y, label="prediction")
plt.fill_between(
    x_test, y - y_std, y + y_std,
    color="orange", alpha=0.5, label="std.")
plt.legend()
plt.show()

3.1.1.线性回归的最大似然和最小平方

假定目标变量$ t $是由确定函数$ y(x, w) $加上高斯噪声给出的：

\[t = y(x,w) + \epsilon \tag{3.7} \]

其中$\epsilon$是均值为0，精度（方差的逆）为$\beta$的高斯随机变量。因此可以写成：

\[p(t|x,w,\beta) = \mathcal{N}(t|y(x,w), \beta^{-1}) \tag{3.8} \]

回忆下1.89式
对曲线拟合，计算平均损失，求期望.

\[\mathbb{E}[L] = \int\int L(t,y(x))p(x,t)dxdt \tag{1.86} \]

求导=0可以得到条件$x$下$t$的条件均值，也就是回归函数

\[y(x) = \frac{\int t p(x,t)dt}{p(x)} = \int t p(t|x)dt = \mathbb{E}_t[t|x] \tag{1.89} \]

回忆结束
则有

\[\mathbb{E}[t|x] = \int tp(t|x)dt = y(x,w) \tag{3.9} \]

假设$X$从3.8式$p(t|x,w,\beta) = \mathcal{N}(t|y(x,w), \beta^{-1})$中抽取
则得到下面的似然函数

\[p(\textbf{t}|\textbf{X},w,\beta) = \prod\limits_{n=1}^N\mathcal{N}(t_n|w^T\phi(x_n),\beta^{-1}) \tag{3.10} \]

求对数似然

\[\begin{eqnarray} \ln p(\textbf{t}|w, \beta) &=& \sum\limits_{n=1}^N \ln\mathcal{N}(t_n|w^T\phi(x_n),\beta^{-1}) \ &=& \frac{N}{2}\ln\beta-\frac{N}{2}\ln(2\pi) - \beta E_D(w) \tag{3.11} \end{eqnarray} \]

其中平方和误差函数定义为：

\[E_D(w) = \frac{1}{2}\sum\limits_{n=1}^N\{t_n - w^T\phi(x_n)\}^2 \tag{3.12} \]

最大似然法求确定$w\beta$

\[\nabla\ln p(\textbf{t}|w,\beta) = \beta\sum\limits_{n=1}^N\{t_n - w^T\phi(x_n)\}\phi(x_n)^T \tag{3.13} \]

\[0 = \sum\limits_{n=1}^Nt_n\phi(x_n)^T - w^T\left(\sum\limits_{n=1}^N\phi(x_n)\phi(x_n)^T\right) \tag{3.14} \]

\[w_{ML} = (\Phi^T\Phi)^{-1}\Phi^T\textbf{t} \tag{3.15} \]

这是最小二乘法的解析解

\[\boldsymbol{\Phi}=\left(\begin{array}{cccc} \phi_{0}\left(\boldsymbol{x}_{1}\right) & \phi_{1}\left(\boldsymbol{x}_{1}\right) & \cdots & \phi_{M-1}\left(\boldsymbol{x}_{1}\right) \\ \phi_{0}\left(\boldsymbol{x}_{2}\right) & \phi_{1}\left(\boldsymbol{x}_{2}\right) & \cdots & \phi_{M-1}\left(\boldsymbol{x}_{2}\right) \\ \vdots & \vdots & \ddots & \vdots \\ \phi_{0}\left(\boldsymbol{x}_{N}\right) & \phi_{1}\left(\boldsymbol{x}_{N}\right) & \cdots & \phi_{M-1}\left(\boldsymbol{x}_{N}\right) \end{array}\right)_{N\times M} \tag{3.16} \]

现在，我们可以更加深刻地认识偏置参数$ w_0 $。如果显式地写出偏置参数，那么误差函数（3.12）变为：

\[E_{D}(\boldsymbol{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{t_{n}-w_{0}-\sum_{j=1}^{M-1} w_{j} \phi_{j}\left(\boldsymbol{x}_{n}\right)\right\}^{2} \tag{3.18} \]

对于$ w_0 $求导并使其等于0，求解$ w_0 $可得：

\[w_0 = \bar{t} - \sum\limits_{j=1}^{M-1}w_j\bar{\phi}_j \tag{3.19} \]

其中定义了：

\[\bar{t}=\frac{1}{N} \sum_{n=1}^{N} t_{n}, \quad \bar{\phi}_{j}=\frac{1}{N} \sum_{n=1}^{N} \phi_{j}\left(\boldsymbol{x}_{n}\right) \tag{3.20} \]

因此偏置$ w_0 $补偿了目标值的均值(在训练集上的)与基函数的值的加权均值之间的差。

我们也可以对于噪声精度参数$ \beta $最大化对数似然函数（3.11），得到：

\[\frac{1}{\beta_{ML}} = \frac{1}{N}\sum\limits_{n=1}^N\{t_n - w_{ML}^T\phi(x_n)\}^2 \tag{3.21} \]

3.1.3 顺序学习

如果误差函数由数据点的和 $E = \sum_nE_n$组成，那么在$n$次这样的观测之后随机梯度算法使用

\[w^{(\tau+1)} = w^{(\tau)} - \eta\Delta E_n \tag{3.22} \]

来更新参数向量$w$。其中$\tau$是迭代次数，$\eta$是学习率参数。稍后会讨论$\eta$的选择问题。$w$被初始化为某个起始向量$w^{(0)}$。在平方和误差函数（3.12）的情况下，得到：

\[w^{(\tau+1)} = w^{(\tau)} - \eta(t_n - w^{(\tau)T}\phi_n)\phi_n \tag{3.23} \]

3.1.4 正则化最小平方

在1.1节中，我们介绍了通过添加一个正则项来防止误差函数过拟的想法，得到的需要最小化的总误差函数的形式为：

\[E_D(w) + \lambda E_W(w) \tag{3.24} \]

其中$ \lambda $是控制数据依赖误差$ E_D(w) $和正则项$ E_W(w) $的相对重要性的正则化参数。一个最简单的正则化项是加权向量元素的平方和：

\[E_W(w) = \frac{1}{2}w^Tw \tag{3.25} \]

那么我们的总误差函数为：

\[\frac{1}{2}\sum\limits_{n=1}^N\{t_n-w^T\phi(x_n)\}^2 + \frac{\lambda}{2}w^Tw \tag{3.27} \]

添加正则化项

\[w = (\lambda I + \Phi^T\Phi)^{-1}\Phi^Tt \tag{3.28} \]

这是最小二乘解（3.15）的一个简单扩展。
有时会使用一种更加一般的正则化项,其误差形式为-q=1表示L1正则

\[\frac{1}{2}\sum\limits_{n=1}^N\{t_n - w^T\phi(x_n)\}^2 + \frac{\lambda}{2}\sum\limits_{j=1}^M|w_j|^q \tag{3.29} \]

当$q=1$时，在统计文献中被称为lasso（Tibshirani, 1996）。它具有如果$\lambda$充分大，那么某些系数$w_j$会变为零，从而得到一个使得对应的基函数不起作用的稀疏模型。为了证明这点，首先注意到最小化式（3.29）等价于最小化满足限制

\[\sum\limits_{j=1}^M|w_j|^q \leq \eta \tag{3.30} \]

的未正则化的平方和误差（3.12）

习题3.5 使用附录E中讨论的拉格朗日乘数法，证明最小化正则化的误差函数(3.29)等价于在限制条件(3.30)下最小化为政者的平方和误差函数(3.12),讨论参数$\eta$和$\lambda$的关系
解1
带约束的优化问题

\[\begin{aligned} \min_{\mathbf{w}}&\,\frac{1}{2}\|\mathbf{t}-\Phi \mathbf{w}\|^2_2\\ \text{s.t.}&\,\|\mathbf{w}\|^q_q\leq \eta. \end{aligned} \]

用拉格朗日乘子法等价转为无约束优化问题

\[\min_{\mathbf{w}}\,\frac{1}{2}\|\mathbf{t}-\Phi \mathbf{w}\|^2_2+\frac{\lambda}{2}(\|\mathbf{w}\|^q_q- \eta) \]

记最优解为 $\mathbf{w}^*_\lambda$，若 $\lambda >0$，则由 KKT 条件有等式约束满足，即 $\eta=\|\mathbf{w}^*_\lambda\|^q_q$，即 $\eta$ 对应最优解的 $q$-范数。

解2

$E_D(w) = \frac{1}{2}\sum\limits_{n=1}^N\{t_n - w^T\phi(x_n)\}^2 (3.12)$
限制$\sum\limits_{j=1}^M|w_j|^q \leq \eta$
$用拉格朗日乘子法$
$L(w,\lambda)=\frac{1}{2}\sum\limits_{n=1}^N\{t_n - w^T\phi(x_n)\}^2+\frac{\lambda}{2}(\sum\limits_{n=1}^N |\mathbf{w_j}|^q- \eta)$
$=\frac{1}{2}\sum\limits_{n=1}^N\{t_n - w^T\phi(x_n)\}^2+\frac{\lambda}{2}\sum\limits_{n=1}^N |\mathbf{w_j}|^q- \frac{\lambda}{2}\eta$
$因为\frac{\partial}{\partial w}(\frac{\lambda \eta}{2})=0$
$所以对L(w,\lambda)最小化的w和对3.29最小化的w等价$
这次不等式制约为$g(w)=\frac{1}{2}(\sum\limits_{j=1}^{M}|w_j|^q-\eta)\le 0$
求$f(w)= \frac{1}{2}\sum\limits_{n=1}^N\{t_n - w^T\phi(x_n)\}^2最小化$
$为了极值在边缘,kkt条件要成立$
$g(w)\le 0,\lambda \ge 0,\lambda g(w)=0$
$\frac{\lambda}{2}(\sum\limits_{n=1}^M|w_j|^q-\eta)=0$
$所以\eta = \sum\limits_{n=1}^M|w_j^*|^q$

$w和\eta 关系,在边界上达到最优，即\eta = \sum\limits_{n=1}^M|w_j^*|^q$
$这里注意下，这里的\eta 不是前面3.1.3中提到的学习率$

3.1.5多个输出

这章节不是重点，一般不会做多目标输出

posted @ 2022-03-21 15:27 筷点雪糕侠阅读(185) 评论(0) 编辑收藏举报

刷新页面返回顶部

筷点雪糕侠