线性代数随笔（一）：线性变换，特征分解，二次型

一、一般线性变换

1、对于一个典型的线性变换：

$y=A\boldsymbol x=\left[ \begin{array}{cc} \boldsymbol w_1 & \boldsymbol w_2\end{array} \right]\left[ \begin{array}{cc} x_1 \\ x_2\end{array} \right]=x_1\boldsymbol w_1+x_2\boldsymbol w_2$

在空间上可以看作每个$x_1$单位拉伸了一个$\boldsymbol w_1$，每个$x_2$单位拉伸成了一个$\boldsymbol w_2$。

2、$\boldsymbol x=A^{-1}\boldsymbol y$，即反变换。得出的是$\boldsymbol y$由多少个$\boldsymbol w_1$和$\boldsymbol w_2$组合而成。

二、线性变换的特征分解：

1、特征向量和特征值的定义

对于矩阵$A$，总有一些特殊的向量$\boldsymbol x$，用A对它进行线性变换后，相当于在原方向上拉伸了$\lambda$倍：

$A\boldsymbol x=\lambda \boldsymbol x$

（注意：特征向量本身放大$k$倍后依然是特征向量，但是它对应的特征值是不变的。）

2、特征向量和特征值的用途

对于任意向量$\boldsymbol x$，如果我们能将它表示为一系列特征向量的线性组合：

$\boldsymbol x=y_1\boldsymbol v_1 + y_2\boldsymbol v_2$

那么我们用$A$对$\boldsymbol x$进行线性变换，就相当于把它的各个分量往两个方向上分别进行拉伸：

$A\boldsymbol x=A(y_1\boldsymbol v_1 + y_2\boldsymbol v_2)=\lambda_1 y_1\boldsymbol v_1+\lambda_2 y_2\boldsymbol v_2$

3、矩阵表示

如果一个$n\times n$矩阵A拥有$n$个线性无关的特征向量，那么这些特征向量就组成了$\boldsymbol R^n$的一个基。也就是用这些特征向量可以线性组合出任一$\boldsymbol R^n$中的向量。这个基我们用$P$表示。

$A\boldsymbol x=PDP^{-1}\boldsymbol x=\left[ \begin{array}{cc} \boldsymbol v_1 & \boldsymbol v_2\end{array} \right]\left[ \begin{array}{cc} \lambda_1 & 0 \\ 0 & \lambda_2 \end{array} \right]\left[ \begin{array}{cc} \boldsymbol v_1 & \boldsymbol v_2\end{array} \right]^{-1}\boldsymbol x$

我们从右向左结合：

(1)左乘$P^{-1}$，将$\boldsymbol x$变换为特征坐标系下的坐标：$\boldsymbol y=\left[ \begin{array}{cc} y_1 \\ y_2\end{array} \right]$

(2)左乘特征值对角矩阵$D$，即每个分量按各自的特征值拉伸，结果记为$\boldsymbol y'=\left[ \begin{array}{cc} \lambda_1y_1 \\ \lambda_2y_2\end{array} \right]$

(3)左乘$P$，将拉伸后各个分量转换为原坐标系，结果为：$A(y_1\boldsymbol v_1 + y_2\boldsymbol v_2)=\lambda_1 y_1\boldsymbol v_1+\lambda_2 y_2\boldsymbol v_2$

三、二次型

1、表示

二次型是形如$y=\boldsymbol x^TA\boldsymbol x=\displaystyle \sum_{i=1}^N\sum_{i=1}^N x_ix_ja_{i,j}$的表达式。二次型在现实中有很多例子。例如多元正态分布的密度函数：

$p(x)=\frac{1}{(2\pi)^{\frac{k}{2}}|\Sigma|^{\frac{1}{2}}}\exp(-\frac{(x-\mu)^T\Sigma^{-1}(x-\mu)}{2})$

其中指数部分$y=(x-\mu)^T\Sigma^{-1}(x-\mu)$就是一个典型的二次型。

2、二次型的分类

(1)正定矩阵：对任意$\boldsymbol x$，有$y=\boldsymbol x^TA\boldsymbol x>0$

(2)负定矩阵：对任意$\boldsymbol x$，有$y=\boldsymbol x^TA\boldsymbol x<0$

类似的还有半正定矩阵和半负定矩阵，分别是把上述条件的大于（小于）号改为大于等于（小于等于）。

2、当$A$为对角矩阵

特别地，当$A$为对角矩阵时，有$\boldsymbol x^TA\boldsymbol x=\sum_{i=1}^N\lambda_ix_i^2$

(1)当所有对角线元素$\lambda_i>0$时，恒有$y>0$，因此$A$为正定矩阵。

(2)当所有对角线元素$\lambda_i<0$时，恒有$y<0$，因此$A$为负定矩阵。

二次型有很多应用，一个典型的应用是约束优化。当$A$为对角矩阵时，很容易求得约束条件下$y$的极值。这里讨论从略。

3、当$A$为对称矩阵

如果限定$A$为对角矩阵，那么二次型的应用就大打折扣。我们希望对角矩阵的二次型的性质能应用到其他矩阵上。一个最常见的例子是对称矩阵，对称矩阵有一个特点：它能进行正交分解。（事实上，对称矩阵是矩阵能够进行正交分解的充分必要条件）

设$A=PDP^{-1}$是$A$的一个正交分解，其中$P$是单位正交基。根据单位正交基的性质：$P^TP=I$，我们有$P^T=P^{-1}$，因此$P^{-1}$可以和$P^T$互换使用。

$y=\boldsymbol x^TA\boldsymbol x=\boldsymbol x^TPDP^T\boldsymbol x=(P^T\boldsymbol x)^TD(P^T\boldsymbol x)=(P^{-1}\boldsymbol x)^TD(P^{-1}\boldsymbol x)$

这里发现，当把$x$转换到特征坐标系下后，$y$就变成了一个标准的对角矩阵的二次型。

λ 1 y 1 v 1 +λ 2 y 2 v 2

posted on 2017-03-10 11:21 米老虎M 阅读(3321) 评论(1) 收藏举报

刷新页面返回顶部

米老虎M

线性代数随笔（一）：线性变换，特征分解，二次型

公告

导航