Loading [MathJax]/extensions/TeX/boldsymbol.js

线性代数随笔(一):线性变换,特征分解,二次型

一、一般线性变换

1、对于一个典型的线性变换:

y=A\boldsymbol x=\left[ \begin{array}{cc} \boldsymbol w_1 & \boldsymbol w_2\end{array} \right]\left[ \begin{array}{cc} x_1 \\ x_2\end{array} \right]=x_1\boldsymbol w_1+x_2\boldsymbol w_2

在空间上可以看作每个x_1单位拉伸了一个\boldsymbol w_1,每个x_2单位拉伸成了一个\boldsymbol w_2

 

2、\boldsymbol x=A^{-1}\boldsymbol y,即反变换。得出的是\boldsymbol y由多少个\boldsymbol w_1\boldsymbol w_2组合而成。

 

二、线性变换的特征分解:

1、特征向量和特征值的定义

对于矩阵A,总有一些特殊的向量\boldsymbol x,用A对它进行线性变换后,相当于在原方向上拉伸了\lambda倍:

A\boldsymbol x=\lambda \boldsymbol x

(注意:特征向量本身放大k倍后依然是特征向量,但是它对应的特征值是不变的。)

 

2、特征向量和特征值的用途

对于任意向量\boldsymbol x,如果我们能将它表示为一系列特征向量的线性组合:

\boldsymbol x=y_1\boldsymbol v_1 + y_2\boldsymbol v_2

那么我们用A\boldsymbol x进行线性变换,就相当于把它的各个分量往两个方向上分别进行拉伸:

A\boldsymbol x=A(y_1\boldsymbol v_1 + y_2\boldsymbol v_2)=\lambda_1 y_1\boldsymbol v_1+\lambda_2 y_2\boldsymbol v_2

 

3、矩阵表示

如果一个n\times n矩阵A拥有n个线性无关的特征向量,那么这些特征向量就组成了\boldsymbol R^n的一个基。也就是用这些特征向量可以线性组合出任一\boldsymbol R^n中的向量。这个基我们用P表示。

A\boldsymbol x=PDP^{-1}\boldsymbol x=\left[ \begin{array}{cc} \boldsymbol v_1 & \boldsymbol v_2\end{array} \right]\left[ \begin{array}{cc} \lambda_1 & 0 \\ 0 & \lambda_2 \end{array} \right]\left[ \begin{array}{cc} \boldsymbol v_1 & \boldsymbol v_2\end{array} \right]^{-1}\boldsymbol x

我们从右向左结合:

(1)左乘P^{-1},将\boldsymbol x变换为特征坐标系下的坐标:\boldsymbol y=\left[ \begin{array}{cc} y_1 \\ y_2\end{array} \right]

(2)左乘特征值对角矩阵D,即每个分量按各自的特征值拉伸,结果记为\boldsymbol y'=\left[ \begin{array}{cc} \lambda_1y_1 \\ \lambda_2y_2\end{array} \right]

(3)左乘P,将拉伸后各个分量转换为原坐标系,结果为:A(y_1\boldsymbol v_1 + y_2\boldsymbol v_2)=\lambda_1 y_1\boldsymbol v_1+\lambda_2 y_2\boldsymbol v_2

 

三、二次型

1、表示

二次型是形如y=\boldsymbol x^TA\boldsymbol x=\displaystyle \sum_{i=1}^N\sum_{i=1}^N x_ix_ja_{i,j}的表达式。二次型在现实中有很多例子。例如多元正态分布的密度函数:

p(x)=\frac{1}{(2\pi)^{\frac{k}{2}}|\Sigma|^{\frac{1}{2}}}\exp(-\frac{(x-\mu)^T\Sigma^{-1}(x-\mu)}{2})

其中指数部分y=(x-\mu)^T\Sigma^{-1}(x-\mu)就是一个典型的二次型。

2、二次型的分类

(1)正定矩阵:对任意\boldsymbol x,有y=\boldsymbol x^TA\boldsymbol x>0

(2)负定矩阵:对任意\boldsymbol x,有y=\boldsymbol x^TA\boldsymbol x<0

类似的还有半正定矩阵和半负定矩阵,分别是把上述条件的大于(小于)号改为大于等于(小于等于)。

2、当A为对角矩阵

特别地,当A为对角矩阵时,有\boldsymbol x^TA\boldsymbol x=\sum_{i=1}^N\lambda_ix_i^2

(1)当所有对角线元素\lambda_i>0时,恒有y>0,因此A为正定矩阵。

(2)当所有对角线元素\lambda_i<0时,恒有y<0,因此A为负定矩阵。

二次型有很多应用,一个典型的应用是约束优化。当A为对角矩阵时,很容易求得约束条件下y的极值。这里讨论从略。

3、当A为对称矩阵

如果限定A为对角矩阵,那么二次型的应用就大打折扣。我们希望对角矩阵的二次型的性质能应用到其他矩阵上。一个最常见的例子是对称矩阵,对称矩阵有一个特点:它能进行正交分解。(事实上,对称矩阵是矩阵能够进行正交分解的充分必要条件)

A=PDP^{-1}A的一个正交分解,其中P是单位正交基。根据单位正交基的性质:P^TP=I,我们有P^T=P^{-1},因此P^{-1}可以和P^T互换使用。

y=\boldsymbol x^TA\boldsymbol x=\boldsymbol x^TPDP^T\boldsymbol x=(P^T\boldsymbol x)^TD(P^T\boldsymbol x)=(P^{-1}\boldsymbol x)^TD(P^{-1}\boldsymbol x)

这里发现,当把x转换到特征坐标系下后,y就变成了一个标准的对角矩阵的二次型。

 

 

λ y +λ y  Ax=A(y1v1+y2v2)=λ1y1v1+λ2y2v2

posted on   米老虎M  阅读(3306)  评论(1编辑  收藏  举报

导航

< 2025年1月 >
29 30 31 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31 1
2 3 4 5 6 7 8

统计

点击右上角即可分享
微信分享提示