线性回归模型(习题)

3 线性回归模型

3.1

\[\sigma(a)=\frac{1}{1+\exp(-a)}, \]

\[\tanh(a)=\frac{\exp(a)-\exp(-a)}{\exp(a)+\exp(-a)}=-1+2\frac{1}{1+\exp(-2a)}=2\sigma(2a)-1. \]

3.2

\[\mathbf{\Phi}(\mathbf{\Phi}^\text{T}\mathbf{\Phi})^{-1}\mathbf{\Phi}^\text{T}\mathbf{v}=\mathbf{\Phi}\mathbf{u} \]

显然该矩阵将向量\(\mathbf{v}\)投射到由矩阵\(\mathbf{\Phi}\)列向量支撑的空间。另一方面,由于最大似然估计给出的权值向量为:

\[\mathbf{w}_\text{ML}=(\mathbf{\Phi}^\text{T}\mathbf{\Phi})^{-1}\mathbf{\Phi}^\text{T}\mathbf{t}, \]

并且\(\mathbf{y}=\mathbf{\Phi}\mathbf{w}_\text{ML}\),下面说明最大似然估计给出的结果将\(\mathbf{t}\)正交投射到由\(\mathbf{\Phi}\)确定的子空间。有:

\[\mathbf{\Phi}^\text{T}(\mathbf{y-t})=\mathbf{\Phi}^\text{T}\left(\mathbf{\Phi}(\mathbf{\Phi}^\text{T}\mathbf{\Phi})^{-1}\mathbf{\Phi}^\text{T}\mathbf{t}-\mathbf{t}\right)=\mathbf{0}. \]

3.3

\[E_D(\mathbf{w})=\frac{1}{2}(\mathbf{t-\Phi w})^\text{T}\mathbf{R(t-\Phi w)}, \]

其中

\[\mathbf{R}=\text{diag}(r_1,...,r_N). \]

从而

\[\nabla_\mathbf{w}(E_D)=-\frac{1}{2}(\mathbf{\Phi^\text{T}R(t-\Phi w)+(t-\Phi w)^\text{T}R\Phi})=0, \]

于是

\[\mathbf{\Phi}^\text{T}\mathbf{R\Phi w}=\mathbf{\Phi}^\text{T}\mathbf{Rt}, \]

\[\mathbf{w}^{*}=(\mathbf{\Phi}^\text{T}\mathbf{R}\mathbf{\Phi})^{-1}\mathbf{\Phi}^\text{T}\mathbf{R}\mathbf{t}. \]

考虑权重\(r_n\)的意义,首先如果样本噪声依赖于样本点,直觉上方差更大的样本点应该被赋予较低的权值,实际上,如果噪声分布为高斯,\(r_n\)等同与精度(方差的倒数)。此外,如果数据中存在重复样本点,\(r_n\)作为分配不同取值样本点的权值系数(有效观测数)。

3.4

\[x_n=\tilde{x}_n+\epsilon_n, \]

\[y_n=\tilde{y}_n+\sum_{i=1}^Dw_i\epsilon_n^i, \]

\[\tilde{E}=\frac{1}{2}\sum_{n=1}^N\{\tilde{y}_n-y_n+y_n-t_n\}^2 \]

\[=E+\frac{1}{2}\sum_{n=1}^N(\tilde{y}_n-y_n)^2+\sum_{i=1}^N(\tilde{y}_n-y_n)(y_n-t_n), \]

由于

\[y_n-\tilde{y}_n\sim \mathcal{N}(0,\sigma^2\sum_{i=1}^Dw_i^2), \]

\[(y_n-\tilde{y}_n)^2 \sim \left(\sigma^2\sum_{i=1}^Dw_i^2\right)\chi^2(1), \]

于是

\[\mathbb{E}(\tilde{E})=E+\frac{1}{2}\sigma^2\sum_{i=1}^Dw_i^2, \]

正则化因子为\(\lambda=\sigma^2/2.\)

posted @ 2018-07-02 14:49  astoninfer  阅读(652)  评论(0编辑  收藏  举报