老师布置的几道作业
这题问的问题 据我的理解应该是 找到使这个式子最大化的c, 用Xi表示出来, 解法我认为应该用拉格朗日乘数法。
令 $L(c,\lambda)=c^T\Sigma c - \lambda (c^Tc-1)$,然后对$L$求c的偏导数并设为0:
$$\nabla(L)_c=2\Sigma c - 2\lambda c=0$$
我们有$\Sigma c=\lambda c$,这是题目中给的式子取到极值的条件,也就是说,拉格朗日乘子是协方差矩阵的特征值,而c是对应的特征向量。
把$\Sigma c=\lambda c$代入原题,有 $$c^T\Sigma c=\lambda c^Tc$$,又因为$c^Tc=1$,因此$$c^T\Sigma c=\lambda c^Tc=\lambda$$
那么现在一切都明朗了,只要令$\lambda$等于$\Sigma$最大的特征值就可以了。
另一个问题是我们不光要知道最大值是多少,还要求出特征向量并用$X_i$表示。所以我们要先求协方差矩阵,再对其特征值分解。首先我把回归系数的最大似然估计表示为一个向量:$\hat{\beta}=(\beta_1,\beta_2)^T$,并设$X=\begin{bmatrix}1 &X_1\\1 &X_2\\...&...\\1&X_n\end{bmatrix}$,根据正规方程有:
$$ \hat{\beta}=(X^TX)^{-1}X^TY $$
接下来求协方差矩阵:
$$ \hat{\beta}=(X^TX)^{-1}X^TY=(X^TX)^{-1}X^T(X\beta+\epsilon)=\beta+(X^TX)^{-1}X^T\epsilon$$
$$\Sigma=Var(\hat{\beta})=E[(\hat{\beta}-\beta)(\hat{\beta}-\beta)^T] =E[(X^TX)^{-1}X^T\epsilon\epsilon^TX(X^TX)^{-1}]=(X^TX)^{-1}X^TE[\epsilon\epsilon^T]X(X^TX)^{-1}=\sigma^2(X^TX)^{-1}$$
因此原问题等价于求解
$$\sigma^2(X^TX)^{-1} c=\lambda c$$
于是
$$ (X^TX) c=\frac{\sigma^2}{\lambda} c=\mu c$$
其中$\mu=\frac{\sigma^2}{\lambda}$
$$ (X^TX-\mu I)c=0$$
令$det(X^TX-\mu I)=0$有:
$$\begin{bmatrix}n-\mu & \sum X_i\\ \sum X_i & \sum X_i^2-\mu\end{bmatrix}=0$$
解得
$$\frac{\sigma^2}{\lambda}=\mu=\frac{(\sum X_i^2+n)\pm\sqrt{(\sum X_i^2+n)^2-4(n\sum X_i^2-(\sum X_i)^2)}}{2}=\frac{(\sum X_i^2+n)\pm\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}}{2}$$
因此
$$ \lambda=\frac{2\sigma^2}{(\sum X_i^2+n)\pm\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}}$$
如果$(\sum X_i^2+n)-\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}>0$那么$\lambda$的最大值就是$\frac{2\sigma^2}{(\sum X_i^2+n)-\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}}$
下面证明$(\sum X_i^2+n)-\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}>0$
$$\frac{2\sigma^2}{(\sum X_i^2+n)-\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2}}=\frac{2\sigma^2(\sum X_i^2+n+\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2})}{4(n\sum X_i^2-(\sum X_i)^2)}$$
下面研究分母
$$n\sum X_i^2-(\sum X_i)^2=n(\sum X_i^2-n\bar{X}^2)=n\sum(X_i-\bar{X})^2$$
证明:
$$\sum(X_i-\bar{X})^2=\sum(X_i^2+\bar{X}^2-2\bar{X}X_i)=\sum X_i^2+n\bar{X}^2-2n\bar{X}^2=\sum X_i^2-n\bar{X}^2$$
因此分母>=0,等于0的情况只发生在所有$X_i$都相等时,但这种情况一般不会发生,基本上可以认为分母>0。
所以
$$\lambda_{max}=\frac{\sigma^2(\sum X_i^2+n+\sqrt{(\sum X_i^2-n)^2+4(\sum X_i)^2})}{2n\sum(X_i-\bar{X})^2}$$
剩下的就是求特征向量,太繁琐不求了, 如果有更简单的方法欢迎指出
这题参考 https://en.wikipedia.org/wiki/Bayes_estimator