Hiroki

大部分笔记已经转移到 https://github.com/hschen0712/machine_learning_notes ,QQ:357033150, 欢迎交流

老师布置的几道作业

这题问的问题 据我的理解应该是 找到使这个式子最大化的c, 用Xi表示出来, 解法我认为应该用拉格朗日乘数法。

令 $L(c,\lambda)=c^T\Sigma c - \lambda (c^Tc-1)$,然后对$L$求c的偏导数并设为0:

$$\nabla(L)_c=2\Sigma c - 2\lambda c=0$$

我们有$\Sigma c=\lambda c$,这是题目中给的式子取到极值的条件,也就是说,拉格朗日乘子是协方差矩阵的特征值,而c是对应的特征向量。

把$\Sigma c=\lambda c$代入原题,有 $$c^T\Sigma c=\lambda c^Tc$$,又因为$c^Tc=1$,因此$$c^T\Sigma c=\lambda c^Tc=\lambda$$

那么现在一切都明朗了,只要令$\lambda$等于$\Sigma$最大的特征值就可以了。

另一个问题是我们不光要知道最大值是多少,还要求出特征向量并用$X_i$表示。所以我们要先求协方差矩阵,再对其特征值分解。首先我把回归系数的最大似然估计表示为一个向量:$\hat{\beta}=(\beta_1,\beta_2)^T$,并设$X=\begin{bmatrix}1 &X_1\\1 &X_2\\...&...\\1&X_n\end{bmatrix}$,根据正规方程有:

$$ \hat{\beta}=(X^TX)^{-1}X^TY $$

接下来求协方差矩阵:

$$ \hat{\beta}=(X^TX)^{-1}X^TY=(X^TX)^{-1}X^T(X\beta+\epsilon)=\beta+(X^TX)^{-1}X^T\epsilon$$

$$\Sigma=Var(\hat{\beta})=E[(\hat{\beta}-\beta)(\hat{\beta}-\beta)^T] =E[(X^TX)^{-1}X^T\epsilon\epsilon^TX(X^TX)^{-1}]=(X^TX)^{-1}X^TE[\epsilon\epsilon^T]X(X^TX)^{-1}=\sigma^2(X^TX)^{-1}$$

因此原问题等价于求解

$$\sigma^2(X^TX)^{-1} c=\lambda c$$

于是

$$ (X^TX) c=\frac{\sigma^2}{\lambda} c=\mu c$$

其中$\mu=\frac{\sigma^2}{\lambda}$

$$ (X^TX-\mu I)c=0$$

令$det(X^TX-\mu I)=0$有:

$$\begin{bmatrix}n-\mu & \sum X_i\\ \sum X_i & \sum X_i^2-\mu\end{bmatrix}=0$$

解得

$$\frac{\sigma^2}{\lambda}=\mu=\frac{(\sum X_i^2+n)\pm\sqrt{(\sum X_i^2+n)^2-4(n\sum X_i^2-(\sum X_i)^2)}}{2}=\frac{(\sum X_i^2+n)\pm\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}}{2}$$

因此

$$ \lambda=\frac{2\sigma^2}{(\sum X_i^2+n)\pm\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}}$$

如果$(\sum X_i^2+n)-\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}>0$那么$\lambda$的最大值就是$\frac{2\sigma^2}{(\sum X_i^2+n)-\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}}$

下面证明$(\sum X_i^2+n)-\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}>0$

$$\frac{2\sigma^2}{(\sum X_i^2+n)-\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}}=\frac{2\sigma^2(\sum X_i^2+n+\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2})}{4(n\sum X_i^2-(\sum X_i)^2)}$$

下面研究分母

$$n\sum X_i^2-(\sum X_i)^2=n(\sum X_i^2-n\bar{X}^2)=n\sum(X_i-\bar{X})^2$$

证明:

$$\sum(X_i-\bar{X})^2=\sum(X_i^2+\bar{X}^2-2\bar{X}X_i)=\sum X_i^2+n\bar{X}^2-2n\bar{X}^2=\sum X_i^2-n\bar{X}^2$$

因此分母>=0,等于0的情况只发生在所有$X_i$都相等时,但这种情况一般不会发生,基本上可以认为分母>0。

所以

$$\lambda_{max}=\frac{\sigma^2(\sum X_i^2+n+\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2})}{2n\sum(X_i-\bar{X})^2}$$

剩下的就是求特征向量,太繁琐不求了, 如果有更简单的方法欢迎指出

这题参考 https://en.wikipedia.org/wiki/Bayes_estimator

posted on 2015-09-20 18:20  Hiroki  阅读(253)  评论(0编辑  收藏  举报

导航