【线性代数】一个看似简单的概念,99.9%的人解释不清楚
这个概念就是“转置”
几乎所有人都知道矩阵的转置是把行和列互换,但它的底层意义“矩阵对应的线性变换在对偶空间里的逆变换对应的矩阵”,你可以试着问国内任何一所大学的数学或物理专业的硕博生,他有90%的概率无法跟你解释清楚。经过四个月断断续续的思考,我终于搞明白了,现尝试以最通俗的方式解释。
首先,先要理解这句话里的两个重要的概念,“线性变换”和“对偶空间”,而这两个概念背后又有一个更基础的概念“空间”。
空间
空间是指一个集合,这个集合里的元素可以进行某些运算(比如加法交换律/加法结合律/乘法封闭性/...)。
向量空间指的就是一个集合,集合里的元素是向量,向量间可以相加,向量可以与标量相乘等。
线性变换
线性变换最通俗的解释就是空间被扭曲了,你可以想象成1024x600的图像被拉成乐1920x1080,所有元素都沿着一条直线拉伸,所以才叫“线性”。
例如,向量[1,1]经过线性变换[2 0, 0 2]后变成了[2,2],可以理解为[1,1]是空间V的元素,[2,2]是空间W的元素,空间W是空间V的横竖各扩大一倍版。
对偶空间
对偶空间官方的解释是线性泛函组成的空间。这个解释太难懂,最通俗的解释就是给人打综合分。人是立体的,比假设有相貌、才华、品德、财富等4个维度的衡量,却压缩到一个维度:分数,具体操作是这样的:相貌*1+才华*2+品德*3+财富*4=综合分。
有了上面的基础,我们来说明对偶空间和线性变换的联系:
现在我们把维度设成二,即只看一个人的相貌和才华。假如一个人在V空间中的相貌是10分,才华是5分,W空间是V空间的放大版(矩阵T=[2 0, 0, 2]),那么他在W空间中相貌就是20分,才华就是10分。现在再按照打分公式f(相貌,才华)=相貌*1+才华*2来打分,在V空间中的分数是10*1+5*2=20分,在W空间中的分数是20*1+10*2=40分。显然两个分数是不同的。如果现在想要最终的分数相同,那么在V和W中的打分公式就不能一样,假设W空间依然按照f(相貌,才华)=相貌*1+才华*2,V空间的打分系数就不能分别是1和2了,必然是比1和2更大的数字。这个就是逆变换的意思,即W空间要比V空间大,到了打分环节(泛函)就要反过来了,即V的系数比W的系数大。
那么到底大多少呢?我们可以这么想:既然两个空间最终的分数相同,而分数是按照(相貌,才华)分别乘以(相貌系数,才华系数)得到的,我们可以从(相貌,才华)中提取比例,把这个比例乘到系数中,就能得到打分的比例。上面这句话有点绕,只能意会不能言传,下面我写一下数学表达式看能不能理解。
线性变换:
[Xw, Yw] = T · [Xv, Yv] = [t11 t12, t21 t22] · [Xv, Yv] ==> [Xw, Yw] = [Xv·t11 + Yv·t12, Xv·t21 + Yv·t22] ==> Xw = Xv·t11 + Yv·t12,Yw = Xv·t21 + Yv·t22
线性泛函:
f(X,Y)= aX + bY
f(Xv,Yv)= aXv + bYv
f(Xw,Yw)= aXw + bYw = a(Xv·t11 + Yv·t12) + b(Xv·t21 + Yv·t22) = (a·t11 + b·t12)Xv + (a·t12 + b·t22)Yv (这个计算表示的是在W对偶空间中提取出比例,对标了V对偶空间的基向量)
==> [a·t11 + b·t12, a·t12 + b·t22] = T' · [a, b]
==> T' = [t11 t21, t12 t22] = TT
总结:要完全理解转置的意义,深刻理解以下几点很关键:
1.空间
2.线性变换,知道V空间经过线性变换到W空间意味着什么
3.对偶空间,知道对偶空间和线性泛函密不可分,线性泛函的系数最为关键,理解要维持对偶空间中的泛函结果一致,线性泛函的系数必须要与线性变换逆着来。